scrapy爬虫起步（3）-- 利用规则实现多页面抓取

最新推荐文章于 2024-03-14 06:19:07 发布

VIP文章 felcon

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量5.3k

点赞数

分类专栏： Scrapy

本文链接：https://blog.csdn.net/felcon/article/details/46535705

版权

第一篇 scrapy爬虫起步（1）–第一个爬虫程序实现了一个简单的爬虫程序，只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组，这只是社科小组下面的第一页地址，如果需要抓取该分组下所有的小组，就需要继续访问其它页。利用scrapy的规则匹配来自动实现。

先贴代码吧：

# coding=utf-8
__author__ = 'Jeffee Chen'

from scrapy.contrib.spiders import CrawlSpider, Rule
from douban.items import DoubanItem
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

class Group

最低0.47元/天解锁文章

felcon

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫起步（3）-- 利用规则实现多页面抓取

第一篇 scrapy爬虫起步（2）–从script调用scrapy实现了一个简单的爬虫程序，只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组，这只是社科小组下面的第一页地址，如果需要抓取该分组下所有的小组，就需要继续访问其它页。利用scrapy的规则匹配来自动实现。先贴代码吧：# coding=utf-8__author__ = 'Jeffee Chen'from scrap
复制链接

扫一扫