用scrpay实现列表页详情页的抽取

最新推荐文章于 2024-07-31 14:11:45 发布

weixin_33790053

最新推荐文章于 2024-07-31 14:11:45 发布

阅读量100

点赞数

文章标签：爬虫 python 运维

原文链接：https://my.oschina.net/u/242141/blog/225215

版权

2019独角兽企业重金招聘Python工程师标准>>>

中国的技术人员对爬虫很感兴趣，一来这东西确实有点技术含量；二来搞垃圾站做网赚要用到爬虫：自己整个小站，用爬虫抄袭别人的内容，挂挂外链，弄弄长尾seo，然后挂广告赚钱。

但其实我们做的工作不全是爬虫，更多的是内容的抽取，即web scraping。一般搜索引擎用到的爬虫，是存取整个html页面，然后建立索引，供用户搜索，这叫crawling。中国一般用一个爬虫就指代了两者，不做区分。

做内容抽取，通常用xpath、正则表达式来定义需要抽取的内容规则，不同的页面规则不相同，爬取不同的页面就要创建和维护不同的规则，比较麻烦，除此之外还要考虑批量爬取和增量爬取的配合。

一般做一次定向爬取，采用列表页+详情页的模式比较常见，以前用过一个工具叫做webharvest，demo的例子里直接有如何做列表页+详情页的抽取，但是webharvest近四年来都没有更新，最近一次使用发现，GUI控制界面居然无法打开配置文件和正常关闭，果断放弃之。最后回到scrapy。

scrapy是python的一个爬虫框架，所谓框架，在于帮助你将注意力焦点放在业务逻辑上，而不是种种繁琐的、重复的、已经有通过解决方案的技术细节，在爬虫这块则是：任务调度、dns缓存、网络访问等等。使用scrapy，你只需要指定你要爬什么网站、爬什么页面、内容在页面的什么部位、最后的结果如何存储，即可。

列表页+详情页的内容抽取，关键在于待爬取的url只是页面页面，如第一页，第二页，。。。，和详情页，其他的页面都无需考虑。而一般爬虫的逻辑是：给定起始页面，发起访问，分析页面包含的所有其他链接，然后将这些链接放入队列，再逐次访问这些队列，直至边界条件结束。为了针对列表页+详情页这种模式，需要对链接抽取（link extractor）的逻辑进行限定。好在scrapy已经提供，关键是你知道这个接口，并灵活运用。

rules = (Rule(SgmlLinkExtractor(allow=('category/20/index_\d+\.html'), restrict_xpaths=("//div[@class='left']"))),
		Rule(SgmlLinkExtractor(allow=('a/\d+/\d+\.html'), restrict_xpaths=("//div[@class='left']")), callback='parse_item'),
	)

Rule是在定义抽取链接的规则，上面的两条规则分别对应列表页的各个分页页面和详情页，关键点在于通过restrict_xpath来限定只从页面特定的部分来抽取接下来将要爬取的链接。

转载于:https://my.oschina.net/u/242141/blog/225215