自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菜鸡瞎讲

矮油!一个菜鸡在瞎讲

  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 scrapy-redis分布式爬虫原理分析

scrapy是python的一个非常好用的爬虫库,功能非常强大,但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来,人多力量大。而scrapy-redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 scrapy-

2016-06-29 23:01:24 18392 9

原创 Python中的defer库

说到defer库,就必须先提到python中的一个比较特别的网络库twisted。 他与其他网络库不同的地方在于,对于很多用连接的并发,他不会使用多线程去实现。比如网络库同时发出10个请求,对于一般的多线程网络库,就会初始化10个线程,每个线程负责一个连接。当一个线程遇到了耗时操作(比如发出request之后等待response,或者向本地磁盘写数据),他就会阻塞。多线程网络库的问题在于,大量的线

2016-06-23 23:48:43 7049

原创 python实现线程池

参照c++的线程池,使用python的threading库实现线程池。import threadingimport time# 线程池的任务,包含一个可调用对象和一个参数数组class ThreadTask(object): def __init__(self, job, args=list()): self.task = job self.args =

2016-06-13 22:17:37 2069

原创 爬虫出现Forbidden by robots.txt

先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用

2016-06-10 18:39:49 31732 4

原创 安装lxml时出现 Unable to find vcvarsall.bat

被这个错误搞了一下午,出这个错误一般都是安装scrapy图中安装lxml出错的,网上很多资料都说是没有安装vc 2008导致缺少组件便以失败,解决方法是安装vc2008或者安装mingw,试了一下都没效果,可能我这边环境比较复杂。最后知乎上看见一个解决方法比较简单: http://www.zhihu.com/question/26857761 就是首先用pip安装wheel,但后直接下载版本对应

2016-06-05 23:21:21 1477

scrapy教程

scrapy教程

2016-06-13

利用python进行数据分析

2016-06-06

python3.51文档

python3.51文档

2016-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除