python scrapy爬取智联招聘全站的公司和职位信息(二)

本文详细介绍了如何使用Python的Scrapy框架爬取智联招聘网站上的公司和职位信息。首先,在Scrapy shell中进行调试,提取职位页面的url、职位标题、工资、地区、学历和招聘人数。接着,通过XPath定位获取公司页面的数据,如公司名称、规模、行业、在招岗位数量和邀面试数,特别是如何处理JavaScript动态加载的邀面试数量。文章还提到了如何解析和拼接URL来获取隐藏的数据。
摘要由CSDN通过智能技术生成

从网页中提取相关信息

**公司页面**: 公司的url,公司名称,规模,行业,在招岗位数量,邀面试数

1. 在scrapy shell中调试

在terminal/CMD中输入
scrapy shell

2019-04-08 22:32:43 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10e4f8908>
[s]   item       {}
[s]   settings   <scrapy.settings.Settings object at 0x10e4f8898>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser

出现以上信息时,继续输入

headers = {
   
            'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
resp = scrapy.Request(url='https://jobs.zhaopin.com/CC120752053J00179220206.htm',headers=headers)
fetch(resp)
2019-04-08 22:33:56 [scrapy.core.engine] INFO: Spider opened
2019-04-08 22:33:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://jobs.zhaopin.com/CC120752053J00179220206.htm> (referer: None)

出现上述字样后,输入response即可查看到连接状态

In [4]: response
Out[4]: <200 https://jobs.zhaopin.com/CC120752053J00179220206.htm>

2. 在职位页面提取数据

接上文,我们需要的数据是这些内容
职业页面: 职位的url,职位标题,工资,地区,学历,招聘人数
标注
上图展示了,我们需要的信息与信息所在的位置
开始在scrapy shell中查找相关数据

  1. 更新时间 update_time

       <span class="summary-plane__time"><i class="iconfont icon-update-time"></i>更新于  4月4日</span>
    

    可以通过直接找到summary-plane__timed得出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值