2016年06月_zzk1995

08月 07月 06月 05月

原创 scrapy-redis分布式爬虫原理分析

scrapy是python的一个非常好用的爬虫库，功能非常强大，但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来，人多力量大。而scrapy-redis就是结合了分布式数据库redis，重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 scrapy-

2016-06-29 23:01:24 18392 9

原创 Python中的defer库

说到defer库，就必须先提到python中的一个比较特别的网络库twisted。他与其他网络库不同的地方在于，对于很多用连接的并发，他不会使用多线程去实现。比如网络库同时发出10个请求，对于一般的多线程网络库，就会初始化10个线程，每个线程负责一个连接。当一个线程遇到了耗时操作（比如发出request之后等待response，或者向本地磁盘写数据），他就会阻塞。多线程网络库的问题在于，大量的线

2016-06-23 23:48:43 7049

原创 python实现线程池

参照c++的线程池，使用python的threading库实现线程池。import threadingimport time# 线程池的任务，包含一个可调用对象和一个参数数组class ThreadTask(object): def __init__(self, job, args=list()): self.task = job self.args =

2016-06-13 22:17:37 2069

原创爬虫出现Forbidden by robots.txt

先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制，防止爬虫来抓取页面，于是在spider中填入各种header信息，伪装成浏览器，结果还是不行。。。用

2016-06-10 18:39:49 31732 4

原创安装lxml时出现 Unable to find vcvarsall.bat

被这个错误搞了一下午，出这个错误一般都是安装scrapy图中安装lxml出错的，网上很多资料都说是没有安装vc 2008导致缺少组件便以失败，解决方法是安装vc2008或者安装mingw，试了一下都没效果，可能我这边环境比较复杂。最后知乎上看见一个解决方法比较简单： http://www.zhihu.com/question/26857761 就是首先用pip安装wheel，但后直接下载版本对应

2016-06-05 23:21:21 1477

scrapy教程

2016-06-13

利用python进行数据分析

2016-06-06

python3.51文档

2016-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人