2017年06月_warrah

原创 bug宝典Python篇 WindowsError: [Error 32] Logged from file remote_connection.py

from selenium import webdriverdriver = webdriver.Firefox()按照上面的方法启动firefox，提示异常信息如下：[2017-06-28 11:35:57][remote_connection.py][line:478][DEBUG] POST http://127.0.0.1:14183/session {"capabilities": {"

2017-06-28 11:35:58 11066 1

原创 bug宝典Python篇 no 'moz:firefoxOptions.binary' capability provided

from selenium import webdriverdriver = webdriver.Firefox()driver.get('https://www.baidu.com')简单的三句话，却启动不了firefox，还提示下面的错误Traceback (most recent call last): File "F:\pythonwork\craw_demo\six\firefox

2017-06-28 09:54:07 3543

原创 bug宝典Python篇 environment can only contain strings

环境python2.7.12scrapyd-1.2.0scrapyd-client-1.1.0在windows环境下使用scrapyd-deploy -p eie的时候提示下面的异常Packing version 1498207812Deploying to project "eie" in http://localhost:6800/addversion.jsonServer respon

2017-06-23 16:54:39 3636 6

原创第1.7章 scrapy之ip代理的使用

1 代理中间件代码核心在于随机选择一条代理的ip和port，至于代理ip和port的来源，可以是购买的ip代理，也可以从网上爬取的。# -*- coding: utf-8 -*-'''Created on 2017年6月14日@author: dzm'''from eie.middlewares import udf_configfrom eie.service.EieIpServic

2017-06-21 14:19:34 5014 1

原创第3.1章 scrapy之pandas操作Mysql

pandas自身的操作说明参考十分钟搞定pandas，这里介绍pandas+sqlalchemy对数据的操作 1 查询import pandas as pdfrom eie.dao import MysqlDaoimport jsondef select(self,types=None):if types: sql = &quot;select ip,port,types f

2017-06-16 14:55:44 1278

原创第2.2章 scrapy之多进程检测代理ip的有效性

1 multiprocessing Python多进程multiprocessing使用示例 mutilprocess的作用是能够像线程一样管理进程，在多核CPU利用率比threading要好的多。 2 从数据库中读取爬到的代理进行验证下面的代码参考了qiyeboy/IPProxyPool# -*- coding: utf-8 -*-'''Created on 2017年6月14日检

2017-06-16 13:54:59 1447

原创第1.6章 scrapy之logger

网上有很多介绍logger的配置，但是我在执行过程中发现scrapy中使用，logger.cfg的文件的位置还有要求，因为scrapy和普通的python脚本根目录是有区别的下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录而红色字体的根是与settings.py的直接上级目录，这里是有区别的，要想通用，最简单的办法，就是在这两个根目录下面都加上logger.cfg文

2017-06-14 18:39:54 1560

原创第1.5章 scrapy之pipelines

下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗from eie.middlewares import udf_configfrom sqlalchemy.engine import create_engineimport pandas as pdfrom eie import se

2017-06-13 17:15:58 657

原创第1.4章 scrapy之setting

# -*- coding: utf-8 -*-BOT_NAME = 'eie'SPIDER_MODULES = ['eie.spiders']NEWSPIDER_MODULE = 'eie.spiders'# 爬虫规则配置# robots.txt规则ROBOTSTXT_OBEY = False# 下载延迟DOWNLOAD_DELAY = 3#启用CookieCOOKIES_ENAB

2017-06-13 16:53:42 438

原创第1.3章 scrapy之动态UserAgent

防范爬虫，从HTTP请求头部信息开始，所以UserAgent需要做动态设置# -*- coding: utf-8 -*-'''Created on 2017年4月21日用户代理@author: dzm@param 加密等级标识: N：无安全加密，I：弱安全加密， U：强安全加密@param 渲染引擎: Gecko、WebKit、KHTML、Presto、Trident、Tasman等

2017-06-13 16:42:32 764

原创第2.1章 scrapy之国内高匿代理IP爬取

这个网站较为简单，故作为爬虫的第一个示例代码如下：# -*- coding: utf-8 -*-'''Created on 2017年6月12日从国内高匿代理IP网站中获取动态ip信息@see: http://www.xicidaili.com/nn/1@author: dzm'''import sysreload(sys)sys.setdefaultencoding('

2017-06-13 16:02:35 1199

原创第1.1章 docker之centos6.*

1 环境准备 CentOS 具体要求如下：必须是 64 位操作系统建议内核在 3.8 以上通过以下命令查看您的 CentOS 内核：[root@ceshi185 ~]# uname -r2.6.32-573.8.1.el6.x86_64对于 CentOS 6 而言，内核版本默认是 2.6。首先，可通过以下命令安装最新内核：rpm --import https:/...

2017-06-12 11:20:58 644

原创第2.2.2章 hadoop之mrunit 多个结果验证

mrunit基础配置参考,这里只写核心的单元测试用例@Test public void test_mapper() throws IOException{ String text = "{\"business\":\"wcnInviteInfoUpload\",\"params\":{\"username\":\"wanghui\",\"provinceId\&

2017-06-05 16:12:55 295

warrah 南极狼