Python分布式动态页面爬虫研究

 

Selenium 的 Webdriver 爬取动态网页效果虽然不错,但效率方面并不如人意。最近一直研究如何提高动态页面爬虫的效率,方法无非高并发和分布式两种。过程中有很多收获,也踩了不少坑,在此一并做个总结。以下大致是这段时间的学习路线。

一、 Scrapy+phantomJS

Scrapy 是一个高效的异步爬虫框架,使用比较广泛,文档也很完备,开发人员能快速地实现高性能爬虫。关于 Scrapy 的基本使用这里就不再赘述了, 这篇 Scrapy 读书笔记 挺不错的。然而 Scrapy 在默认的情况下只能获取静态的网页内容,因此必须进一步定制开发。

Scrapy 结合 phantomJS 似乎是个不错的选择。phantomJS 是一个没有页面的浏览器,能渲染动态页面并且相对轻量。因此,我们需要修改 Scrapy 的网页请求模块,让 phantomJS 请求网页,以达到获取动态网页的目的。一番调研之后,发现大致有三种定制方法:

1. 每个 url 请求两次。在回调函数中舍弃掉返回的 response 内容,然后用 phantomJS 再次请求 response.url,这次的请求由于没有构造 Request 对象,当然就没有回调函数了,然后阻塞等待结果返回即可。这个方法会对同一个 url 请求两次,第一次是 Scrapy 默认的 HTTP 请求,第二次则是 phantomJS 的请求,当然第二次获取到的就是动态网页了。这个方法比较适合快速实现小规模动态爬虫,在默认的 Scrapy 项目基础上,只需要简单修改回调函数就可以了。

2. 自定义下载中间件( downloadMiddleware)。 downloadMiddleware 对从 scheduler 送来的 Request 对象在请求之前进行预处理,可以实现添加 headers, user_agent,还有 cookie 等功能 。但也可以通过中间件直接返回 HtmlResponse 对象,略过请求的模块,直接扔给 response 的回调函数处理。代码如下:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python分布式爬虫是指使用多台计算机协同工作来完成爬取任务的方式。它的优点包括能够加快爬取速度、降低单台计算机负担、提高爬取效率等。 Python分布式爬虫的实现方法有很多种,其中比较常用的是使用Scrapy框架和使用Redis等分布式工具来实现。下面简单介绍一下这两种方法: 1. 使用Scrapy框架 Scrapy是一个基于Python的高级爬虫框架,它允许爬虫在多个机器上运行,从而实现分布式爬虫。使用Scrapy实现分布式爬虫的步骤如下: 1)在settings.py中设置分布式相关的配置,如分布式爬虫的节点地址、爬虫队列大小等。 2)使用Redis作为分布式队列,将爬取任务添加到队列中。 3)使用多台计算机启动Scrapy爬虫,每台计算机都从Redis队列中获取任务并进行爬取。 4)将爬取结果保存到Redis或其他数据库中。 2. 使用Redis等分布式工具 除了Scrapy框架外,还可以使用Redis等分布式工具来实现Python分布式爬虫。具体实现方法如下: 1)使用Redis等分布式工具作为爬取任务的队列,将爬取任务添加到队列中。 2)使用多台计算机从队列中获取任务并进行爬取,将爬取结果保存到Redis或其他数据库中。 3)使用Redis等分布式工具来管理分布式爬虫的节点,如添加、删除、管理节点等。 总的来说,Python分布式爬虫需要掌握的知识点包括Scrapy框架、Redis等分布式工具、分布式爬虫的架构设计、爬取任务的管理等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值