Python爬虫框架Scrapy实战之抓取户外数据

一个户外论坛的特点:

列出一些活动,有翻页功能,点向一个活动显示当前活动信息,在二楼一般显示报名名单!

需要的数据:

就是活动的信息,报名的名单,价钱,主题,url

数据库:

旅游表与报名表


选择Spider:

我选择了CrawlSpider,这个特点:提供一个跟随链接的一个规则!
    rules = (
        Rule(LinkExtractor(allow=('forum\.php\?mod=forumdisplay\&fid=2\&page=\d+', ))),
        Rule(LinkExtractor(restrict_xpaths='//tr/th[@class="common"]/a[starts-with(@href,"http")]'), callback='parse_item'),
    )

提取数据的xpath:

'//div[@id="postlist"]/div[2]//div[@align="left"]/text()','//div[@id="postlist"]/div[2]//strong/text()']

实例地址:

https://github.com/heavyzero/example/tree/master/uutravel

结果:


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值