本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于青灯编程 ,作者:清风
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
基本开发环境
Python 3.6
Pycharm
相关模块使用
爬虫模块
importrequestsimportreimportparselimport csv
词云模块
importjiebaimport wordcloud
目标网页分析
通过开发者工具可以看到,获取返回数据之后,数据是
在 window.__SEARCH_RESULT__ 里面,可以使用正则匹配数据。
如下图所示
'https://jobs.51job.com/beijing-ftq/127676506.html?s=01&t=0'
每一个招聘信息的详情页都是有对应的ID,只需要正则匹配提取ID值,通过拼接URL,然后再去招聘详情页提取招聘数据即可。
response = requests.get(url=url, headers=headers)
lis= re.findall('"jobid":"(\d+)"', response.text)for li inlis:
page_url=