自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 bug宝典Python篇 WindowsError: [Error 32] Logged from file remote_connection.py

from selenium import webdriverdriver = webdriver.Firefox()按照上面的方法启动firefox,提示异常信息如下:[2017-06-28 11:35:57][remote_connection.py][line:478][DEBUG] POST http://127.0.0.1:14183/session {"capabilities": {"

2017-06-28 11:35:58 11066 1

原创 bug宝典Python篇 no 'moz:firefoxOptions.binary' capability provided

from selenium import webdriverdriver = webdriver.Firefox()driver.get('https://www.baidu.com')简单的三句话,却启动不了firefox,还提示下面的错误Traceback (most recent call last): File "F:\pythonwork\craw_demo\six\firefox

2017-06-28 09:54:07 3543

原创 bug宝典Python篇 environment can only contain strings

环境python2.7.12scrapyd-1.2.0scrapyd-client-1.1.0在windows环境下使用scrapyd-deploy -p eie的时候提示下面的异常Packing version 1498207812Deploying to project "eie" in http://localhost:6800/addversion.jsonServer respon

2017-06-23 16:54:39 3636 6

原创 第1.7章 scrapy之ip代理的使用

1 代理中间件 代码核心在于随机选择一条代理的ip和port,至于代理ip和port的来源,可以是购买的ip代理,也可以从网上爬取的。# -*- coding: utf-8 -*-'''Created on 2017年6月14日@author: dzm'''from eie.middlewares import udf_configfrom eie.service.EieIpServic

2017-06-21 14:19:34 5014 1

原创 第3.1章 scrapy之pandas操作Mysql

pandas自身的操作说明参考十分钟搞定pandas,这里介绍pandas+sqlalchemy对数据的操作 1 查询import pandas as pdfrom eie.dao import MysqlDaoimport jsondef select(self,types=None):if types: sql = "select ip,port,types f

2017-06-16 14:55:44 1278

原创 第2.2章 scrapy之多进程检测代理ip的有效性

1 multiprocessing Python多进程multiprocessing使用示例 mutilprocess的作用是能够像线程一样管理进程,在多核CPU利用率比threading要好的多。 2 从数据库中读取爬到的代理进行验证 下面的代码参考了qiyeboy/IPProxyPool# -*- coding: utf-8 -*-'''Created on 2017年6月14日检

2017-06-16 13:54:59 1447

原创 第1.6章 scrapy之logger

网上有很多介绍logger的配置,但是我在执行过程中发现scrapy中使用,logger.cfg的文件的位置还有要求,因为scrapy和普通的python脚本根目录是有区别的 下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录 而红色字体的根是与settings.py的直接上级目录, 这里是有区别的,要想通用,最简单的办法,就是在这两个根目录下面都加上logger.cfg文

2017-06-14 18:39:54 1560

原创 第1.5章 scrapy之pipelines

下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗from eie.middlewares import udf_configfrom sqlalchemy.engine import create_engineimport pandas as pdfrom eie import se

2017-06-13 17:15:58 657

原创 第1.4章 scrapy之setting

# -*- coding: utf-8 -*-BOT_NAME = 'eie'SPIDER_MODULES = ['eie.spiders']NEWSPIDER_MODULE = 'eie.spiders'# 爬虫规则配置# robots.txt规则ROBOTSTXT_OBEY = False# 下载延迟DOWNLOAD_DELAY = 3#启用CookieCOOKIES_ENAB

2017-06-13 16:53:42 438

原创 第1.3章 scrapy之动态UserAgent

防范爬虫,从HTTP请求头部信息开始,所以UserAgent需要做动态设置# -*- coding: utf-8 -*-'''Created on 2017年4月21日用户代理@author: dzm@param 加密等级标识: N:无安全加密,I:弱安全加密, U:强安全加密@param 渲染引擎: Gecko、WebKit、KHTML、Presto、Trident、Tasman等

2017-06-13 16:42:32 764

原创 第2.1章 scrapy之国内高匿代理IP爬取

这个网站较为简单,故作为爬虫的第一个示例 代码如下:# -*- coding: utf-8 -*-'''Created on 2017年6月12日从国内高匿代理IP网站中获取动态ip信息@see: http://www.xicidaili.com/nn/1@author: dzm'''import sysreload(sys)sys.setdefaultencoding('

2017-06-13 16:02:35 1199

原创 第1.1章 docker之centos6.*

1 环境准备 CentOS 具体要求如下: 必须是 64 位操作系统 建议内核在 3.8 以上 通过以下命令查看您的 CentOS 内核:[root@ceshi185 ~]# uname -r2.6.32-573.8.1.el6.x86_64对于 CentOS 6 而言,内核版本默认是 2.6。首先,可通过以下命令安装最新内核:rpm --import https:/...

2017-06-12 11:20:58 644

原创 第2.2.2章 hadoop之mrunit 多个结果验证

mrunit基础配置参考,这里只写核心的单元测试用例@Test public void test_mapper() throws IOException{ String text = "{\"business\":\"wcnInviteInfoUpload\",\"params\":{\"username\":\"wanghui\",\"provinceId\&

2017-06-05 16:12:55 295

mybatis代码生成插件

mybatis代码生成插件

2016-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除