Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)

本文介绍如何使用Scrapy的CrawlSpider类实现自动多网页爬取,重点讲解LinkExtractor的使用,包括allow和restrict_xpaths等参数的配置,以及在Scrapy shell中的验证过程。CrawlSpider的rules特性简化了链接提取和跟进的流程。
摘要由CSDN通过智能技术生成

原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315

.目的。

在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,

pipelines.py中实现获得数据的过滤以及保存。

但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能。

在教程(五)(http://blog.csdn.net/u012150179/article/details/34486677)中已经编写继承自spider的类实现爬虫,实现了自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。


.热身。
  1. 1.CrawlSpider

    1)概念与作用:

    它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。

    2)使用

    它与Spider类的最大不同是多了一个rules参数,其作用是定义提取动作。在rules中包含一个或多个Rule

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值