自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Scrapy-redis改造scrapy实现分布式多进程爬取

一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 参考Scrapy-Redis

2017-06-21 16:54:44 10485

原创 scrapy-splash爬取JS生成的动态页面

利用scrapy-splash爬取JS生成的动态页面 目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。 利用webkit或者基于webkit库 Splash

2017-06-06 10:14:29 1126

原创 CentOS 6.5安装LAMP,并开启MySQL远程访问

准备: 1、配置防火墙,开启80端口、3306端口vi /etc/sysconfig/iptables-A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT #允许80端口通过防火墙-A INPUT -m state --state NEW -m tcp -p tcp --dport 3306 -j ACCEPT #允许

2017-06-01 16:15:30 755

原创 centos安装MySQLdb,及相关问题解决方法

centos环境Python的MySQLdb安装问题稍多点,整理一下,也方便自己以后查看。1.#sudo yum install gcc-c++(使用sudo yum install gcc-c++时会自动安装/升级gcc及其他依赖的包。)2.#wget http://sourceforge.net/projects/mysql-python/files/mysql-python/1.2.3/M

2017-06-01 13:36:49 477

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除