- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 bug宝典Python篇 WindowsError: [Error 32] Logged from file remote_connection.py
from selenium import webdriverdriver = webdriver.Firefox()按照上面的方法启动firefox,提示异常信息如下:[2017-06-28 11:35:57][remote_connection.py][line:478][DEBUG] POST http://127.0.0.1:14183/session {"capabilities": {"
2017-06-28 11:35:58 11066 1
原创 bug宝典Python篇 no 'moz:firefoxOptions.binary' capability provided
from selenium import webdriverdriver = webdriver.Firefox()driver.get('https://www.baidu.com')简单的三句话,却启动不了firefox,还提示下面的错误Traceback (most recent call last): File "F:\pythonwork\craw_demo\six\firefox
2017-06-28 09:54:07 3543
原创 bug宝典Python篇 environment can only contain strings
环境python2.7.12scrapyd-1.2.0scrapyd-client-1.1.0在windows环境下使用scrapyd-deploy -p eie的时候提示下面的异常Packing version 1498207812Deploying to project "eie" in http://localhost:6800/addversion.jsonServer respon
2017-06-23 16:54:39 3636 6
原创 第1.7章 scrapy之ip代理的使用
1 代理中间件 代码核心在于随机选择一条代理的ip和port,至于代理ip和port的来源,可以是购买的ip代理,也可以从网上爬取的。# -*- coding: utf-8 -*-'''Created on 2017年6月14日@author: dzm'''from eie.middlewares import udf_configfrom eie.service.EieIpServic
2017-06-21 14:19:34 5014 1
原创 第3.1章 scrapy之pandas操作Mysql
pandas自身的操作说明参考十分钟搞定pandas,这里介绍pandas+sqlalchemy对数据的操作 1 查询import pandas as pdfrom eie.dao import MysqlDaoimport jsondef select(self,types=None):if types: sql = "select ip,port,types f
2017-06-16 14:55:44 1278
原创 第2.2章 scrapy之多进程检测代理ip的有效性
1 multiprocessing Python多进程multiprocessing使用示例 mutilprocess的作用是能够像线程一样管理进程,在多核CPU利用率比threading要好的多。 2 从数据库中读取爬到的代理进行验证 下面的代码参考了qiyeboy/IPProxyPool# -*- coding: utf-8 -*-'''Created on 2017年6月14日检
2017-06-16 13:54:59 1447
原创 第1.6章 scrapy之logger
网上有很多介绍logger的配置,但是我在执行过程中发现scrapy中使用,logger.cfg的文件的位置还有要求,因为scrapy和普通的python脚本根目录是有区别的 下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录 而红色字体的根是与settings.py的直接上级目录, 这里是有区别的,要想通用,最简单的办法,就是在这两个根目录下面都加上logger.cfg文
2017-06-14 18:39:54 1560
原创 第1.5章 scrapy之pipelines
下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗from eie.middlewares import udf_configfrom sqlalchemy.engine import create_engineimport pandas as pdfrom eie import se
2017-06-13 17:15:58 657
原创 第1.4章 scrapy之setting
# -*- coding: utf-8 -*-BOT_NAME = 'eie'SPIDER_MODULES = ['eie.spiders']NEWSPIDER_MODULE = 'eie.spiders'# 爬虫规则配置# robots.txt规则ROBOTSTXT_OBEY = False# 下载延迟DOWNLOAD_DELAY = 3#启用CookieCOOKIES_ENAB
2017-06-13 16:53:42 438
原创 第1.3章 scrapy之动态UserAgent
防范爬虫,从HTTP请求头部信息开始,所以UserAgent需要做动态设置# -*- coding: utf-8 -*-'''Created on 2017年4月21日用户代理@author: dzm@param 加密等级标识: N:无安全加密,I:弱安全加密, U:强安全加密@param 渲染引擎: Gecko、WebKit、KHTML、Presto、Trident、Tasman等
2017-06-13 16:42:32 764
原创 第2.1章 scrapy之国内高匿代理IP爬取
这个网站较为简单,故作为爬虫的第一个示例 代码如下:# -*- coding: utf-8 -*-'''Created on 2017年6月12日从国内高匿代理IP网站中获取动态ip信息@see: http://www.xicidaili.com/nn/1@author: dzm'''import sysreload(sys)sys.setdefaultencoding('
2017-06-13 16:02:35 1199
原创 第1.1章 docker之centos6.*
1 环境准备 CentOS 具体要求如下: 必须是 64 位操作系统 建议内核在 3.8 以上 通过以下命令查看您的 CentOS 内核:[root@ceshi185 ~]# uname -r2.6.32-573.8.1.el6.x86_64对于 CentOS 6 而言,内核版本默认是 2.6。首先,可通过以下命令安装最新内核:rpm --import https:/...
2017-06-12 11:20:58 644
原创 第2.2.2章 hadoop之mrunit 多个结果验证
mrunit基础配置参考,这里只写核心的单元测试用例@Test public void test_mapper() throws IOException{ String text = "{\"business\":\"wcnInviteInfoUpload\",\"params\":{\"username\":\"wanghui\",\"provinceId\&
2017-06-05 16:12:55 295
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人