scrapy crawlspider 腾讯招聘

最新推荐文章于 2018-09-07 17:42:42 发布

日出2133

最新推荐文章于 2018-09-07 17:42:42 发布

阅读量149

点赞数

分类专栏： spider

本文链接：https://blog.csdn.net/qwe1110/article/details/79599258

版权

spider 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

scrapy的一个小分支，主要是利用正则，匹配url，

第一个rule实现自动翻页，

第二个rule实现提取内容，

愿大家每天进步一点点，会发现生活如此美好~

能看到这篇文章，相信，老铁已经在爬虫的路上，走过一段时间了，给部分想踏入爬虫这个行业的人，

推荐一本书：《Python爬虫开发与项目实战》

不用买，网上就有，里面都是基础，在面试中磨练基础，在项目中磨练经验

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from tencent_job.items import TencentJobItem


class TxjobSpider(CrawlSpider):
    name = 'txjob'
    allowed_domains = ['tencent.com']
    start_urls = ['https://hr.tencent.com/position.php?&start=0#a']
    item = TencentJobItem()
    rules = (
        Rule(LinkExtractor(allow=r'&start=\d+'), follow=True),
        Rule(LinkExtractor(allow=r'\?id=\d+'), callback='parse_item'),
    )

    def parse_item(self, response):
        item = TencentJobItem()
        item['title'] = response.xpath('//td[@id="sharetitle"]/text()').extract_first()
        item['address'] = response.xpath('//tr[@class="c bottomline"]/td[1]/text()').extract_first()
        item['type'] = response.xpath('//tr[@class="c bottomline"]/td[2]/text()').extract_first()
        item['count'] = response.xpath('//tr[@class="c bottomline"]/td[3]/text()').extract_first()
        item['responsibility'] = response.xpath('//ul[@class="squareli"]//text()').extract()

日出2133

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy crawlspider 腾讯招聘

scrapy的一个小分支，主要是利用正则，匹配url，第一个rule实现自动翻页，第二个rule实现提取内容，愿大家每天进步一点点，会发现生活如此美好~能看到这篇文章，相信，老铁已经在爬虫的路上，走过一段时间了，给部分想踏入爬虫这个行业的人，推荐一本书：《Python爬虫开发与项目实战》不用买，网上就有，里面都是基础，在面试中磨练基础，在项目中磨练经验import scrapyfrom scra...
复制链接

扫一扫

专栏目录