Python爬虫框架Scrapy实战之抓取户外数据

heavyzero

于 2015-03-26 15:19:58 发布

阅读量997

点赞数

文章标签： python scrapy 框架爬虫

本文链接：https://blog.csdn.net/heavyzero/article/details/44650415

版权

一个户外论坛的特点:

列出一些活动，有翻页功能，点向一个活动显示当前活动信息，在二楼一般显示报名名单！

需要的数据:

就是活动的信息，报名的名单，价钱，主题，url

数据库:

旅游表与报名表

选择Spider：

我选择了CrawlSpider，这个特点：提供一个跟随链接的一个规则！

    rules = (
        Rule(LinkExtractor(allow=('forum\.php\?mod=forumdisplay\&fid=2\&page=\d+', ))),
        Rule(LinkExtractor(restrict_xpaths='//tr/th[@class="common"]/a[starts-with(@href,"http")]'), callback='parse_item'),
    )

提取数据的xpath:

'//div[@id="postlist"]/div[2]//div[@align="left"]/text()','//div[@id="postlist"]/div[2]//strong/text()']

实例地址:

https://github.com/heavyzero/example/tree/master/uutravel

结果：

heavyzero

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫框架Scrapy实战之抓取户外数据

一个户外论坛的特点:列出一些活动，有翻页功能，点向一个活动显示当前活动信息，在二楼一般显示报名名单！需要的数据:就是活动的信息，报名的名单，价钱，主题，url数据库:旅游表与报名表选择Spider：我选择了CrawlSpider，这个特点：提供一个跟随链接的一个规则！ rules = ( Rule(LinkExt
复制链接

扫一扫