python爬虫框架实例项目_Python爬虫框架Scrapy实例(一)

#-*- coding:utf-8 -*-

importscrapy#导入CrawlSpider类和Rule

from scrapy.spiders importCrawlSpider, Rule#导入链接规则匹配类,用来提取符合规则的连接

from scrapy.linkextractors importLinkExtractorfrom TencentSpider.items importTencentItem

classTencentSpider(CrawlSpider):

name= "tencent"allow_domains= ["hr.tencent.com"]

start_urls= [""]

# Response里链接的提取规则,返回的符合匹配规则的链接匹配对象的列表

pagelink = LinkExtractor(allow=("start=\d+"))

rules = [

# 获取这个列表里的链接,依次发送请求,并且继续跟进,调用指定回调函数处理

Rule(pagelink, callback = "parseTencent", follow = True)

]

# 指定的回调函数

def parseTencent(self, response):

for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

item = TencentItem()

# 职位名称

item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

# 详情连接

item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

# 职位类别

item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

# 招聘人数

item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0]

# 工作地点

item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

# 发布时间

item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

yield item

copycode.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值