目录
②、输入你要查询的职位情况,咱们这里以python岗位为例。
④、复制链接打开发现此链接为json格式数据集,所以我们第一步先要获取到这个json格式的数据集,然后循环获取内部的岗位信息
一、需求
爬取xx招聘的岗位信息,要获取的信息有职位名称、国家、城市、职位分类、职位更新时间、职位要求
二、步骤
1、需求分析
①、URL
https://careers.tencent.com/home.html
②、输入你要查询的职位情况,咱们这里以python岗位为例。
③、如下所示找到网站展示url链接:
④、复制链接打开发现此链接为json格式数据集,所以我们第一步先要获取到这个json格式的数据集,然后循环获取内部的岗位信息
⑤、找到真实链接之后,我们就可以模拟浏览器访问网站
url = f'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1623410681974&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'
headers= {
'referer': f'https://careers.tencent.com/search.html?index=1',
'user-agent': str(UserAgent().random)
}
resp = requests.get(url, headers = headers)
print(resp.json())
'''
{'Code': 200, 'Data': {'Count': 10006, 'Posts': [{'Id': 0, 'PostId': '1237621607640338432', 'RecruitPostId': 58544, 'RecruitPostName': '35933-司法协作经理(南京)', 'CountryName': '中国', 'LocationName': '南京', 'BGName': 'S1', 'ProductName': '', 'CategoryName': '法律与公共策略', 'Responsibility': '研究落实国家互联网政策和法律法规相关要求,协调业务做好合规工作;\n深入研究涉及网络犯罪的内在规律和发展趋势,为保护业务健康发展建立畅通外部沟通渠道;\n依据法律法规要求,建立并保持与执法机关的互动窗口,严格履行法律赋予的企业义务。\n\n', 'LastUpdateTime': '2021年06月12日', 'PostURL': 'http://careers.tencent.com/jobdesc.html?postId=1237621607640338432', 'SourceID': 1, 'IsCollect': False, 'IsValid': True}, {'Id': 0, 'PostId': '1269571935444934656', 'RecruitPostId': 62560, 'RecruitPostName': 'AQ-内容安全运营经理', 'CountryName': '中国', 'LocationName': '北京', 'BGName': 'S1', 'ProductName': '', 'CategoryName': '法律与公共策略', 'Responsibility': '与相关主管部门、行业组织等建立长期、良好的沟通和合作关系;\n及时了解、研究与公司业务相关的政策监管要求与行业发