python爬虫岗位要求_python爬虫实战:爬取招聘要求等信息

在本篇文章里小编给大家整理了关于python爬取招聘要求等信息实例内容,有兴趣的朋友们可以学习下。

在我们人生的路途中,找工作是每个人都会经历的阶段,小编曾经也是苦苦求职大军中的一员。怀着对以后的规划和想象,我们在找工作的时候,会看一些招聘信息,然后从中挑选合适的岗位。不过招聘的岗位每个公司都有不少的需求,我们如何从中获取数据,来进行针对岗位方面的查找呢?

大致流程如下:

1.从代码中取出pid

2.根据pid拼接网址 => 得到 detail_url,使用requests.get,防止爬虫挂掉,一旦发现爬取的detail重复,就重新启动爬虫

3.根据detail_url获取网页html信息 => requests - > html,使用BeautifulSoup

若爬取太快,就等着解封

ifhtml.status_code!=200print('status_code if {}'.format(html.status_code))

4.根据html得到soup => soup

5.从soup中获取特定元素内容 => 岗位信息

6.保存数据到MongoDB中

代码:

# @author:limingxuan

# @contect:limx2011@hotmail.com

# @blog:https://www.jianshu.com/p/a5907362ba72

# @time:2018-07-21

importrequests

frombs4importBeautifulSoup

importtime

frompymongoimportMongoClient

headers={

'accept':"application/json, text/javascript, */*; q=0.01",

'accept-encoding':"gzip, deflate, br",

'accept-language':"zh-CN,zh;q=0.9,en;q=0.8",

'content-type':"application/x-www-form-urlencoded; charset=UTF-8",

'cookie':"JSESSIONID=""; __c=1530137184; sid=sem_pz_bdpc_dasou_title; __g=sem_pz_bdpc_dasou_title; __l=r=https%3A%2F%2Fwww.zhipin.com%2Fgongsi%2F5189f3fadb73e42f1HN40t8~.html&l=%2Fwww.zhipin.com%2Fgongsir%2F5189f3fadb73e42f1HN40t8~.html%3Fka%3Dcompany-jobs&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1531150234,1531231870,1531573701,1531741316; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1531743361; __a=26651524.1530136298.1530136298.1530137184.286.2.285.199",

'origin':"https://www.zhipin.com",

'referer':"https://www.zhipin.com/job_detail/?query=python&scity=101010100",

'user-agent':"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"

}

conn=MongoClient('127.0.0.1',27017)

db=conn.zhipin_jobs

definit():

items=db.Python_jobs.find().sort('pid')

foriteminitems:

if'detial'initem.keys():#当爬虫挂掉时,跳过已爬取的页

continue

detail_url='https://www.zhipin.com/job_detail/{}.html'.format(item['pid'])#单引号和双引号相同,str.format()新格式化方式

#第一阶段顺利打印出岗位页面的url

print(detail_url)

#返回的html是 Response 类的结果

html=requests.get(detail_url,headers=headers)

ifhtml.status_code!=200:

print('status_code is {}'.format(html.status_code))

break

#返回值soup表示一个文档的全部内容(html.praser是html解析器)

soup=BeautifulSoup(html.text,'html.parser')

job=soup.select('.job-sec .text')

print(job)

#???

iflen(job)<1:

item['detail']=job[0].text.strip()#职位描述

location=soup.select(".job-sec .job-location .location-address")

item['location']=location[0].text.strip()#工作地点

item['updated_at']=time.strftime("%Y-%m-%d %H:%M:%S",time.localtime())#实时爬取时间

#print(item['detail'])

#print(item['location'])

#print(item['updated_at'])

res=save(item)#调用保存数据结构

print(res)

time.sleep(40)#爬太快IP被封了24小时==

#保存数据到MongoDB中

defsave(item):

returndb.Python_jobs.update_one({'_id':item['_id']},{'$set':item})#why item ???

# 保存数据到MongoDB

if__name__=='__main__':

init()

最终结果就是在MongoBooster中看到新增了detail和location的数据内容

到此这篇关于python爬取招聘要求等信息实例的文章就介绍到这了!

扫下方二维码加老师微信

或是搜索老师微信号:XTUOL1988【切记备注:学习Python】

领取Python web开发,Python爬虫,Python数据分析,人工智能等学习教程。带你从零基础系统性的学好Python!

也可以加老师建的Python技术学习教程qq裙:245345507,二者加一个就可以!

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

万水千山总是情,点个【在看】行不行

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值