Python多线程爬取腾讯招聘信息

最新推荐文章于 2021-09-05 09:10:41 发布

一如少年游

最新推荐文章于 2021-09-05 09:10:41 发布

阅读量529

点赞数 1

分类专栏： Python爬虫文章标签： python 多线程大数据 ajax

本文链接：https://blog.csdn.net/weixin_43135415/article/details/112105013

版权

本文介绍了使用Python进行多线程爬取腾讯招聘网站技术类板块的招聘信息。通过网页分析找到真实请求地址，解析JSON数据获取工作名称、地点和内容，并利用多线程提高爬取效率，最终实现快速获取993条职位信息。

摘要由CSDN通过智能技术生成

网页分析

在这里插入图片描述
技术类板块下招聘信息共有300多页，每页10条信息，主要获取的信息是工作名称、地点、内容等。

找到真实请求地址

以技术类板块为例，其地址如下：

https://careers.tencent.com/search.html?pcid=40001

如果直接去请求这个地址，会发现并没有我们想要的职位信息等内容，因此需要通过抓包找到真实的请求地址，通过对XHR进行筛选，很容易就找到了真实的请求地址。
在这里插入图片描述
真实请求地址：https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1609576386939&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=40001&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn

通过对比分析，发现这一长串网址中只有两个参数是变动的，一个是时间戳timestamp，一个是请求页数pageIndex，因此我们只需要把这两个参数传入网址中，即可实现自动翻页。

TIME_STAMP = int(round(time.time() * 1000))
PAGE_INDEX = 100
for index in range(1, PAGE_INDEX):
	url = f'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp={TIME_STAMP}&countryId' \
	f'=&cityId=&bgIds=&productId=&categoryId=40001001,40001002,40001003,40001004,40001005,' \
	f'40001006&parentCategoryId=&attrId=&keyword=&pageIndex={index}&pageSize=10&language=zh-cn' \
	f'&area=cn '
	URL_QUEUE.put(url)

为了实现多线程，将每页URL生成后放入到队列中。

内容获取

这里我们主要获取的信息是工作名称、地点、内容，请求返回的数据通过json加载成dict数据类型后，就很容易获取到想要的信息了。

res = requests.get(self.url_queue.get()).content
            text = json.loads(res)
            for info in text['Data'

最低0.47元/天解锁文章

一如少年游

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Python多线程爬取腾讯招聘信息

Python多线程爬取腾讯招聘信息网页分析找到真实请求地址内容获取多线程实现完整代码效果实现总结网页分析技术类板块下招聘信息共有300多页，每页10条信息，主要获取的信息是工作名称、地点、内容等。找到真实请求地址以技术类板块为例，其地址如下：https://careers.tencent.com/search.html?pcid=40001如果直接去请求这个地址，会发现并没有我们想要的职位信息等内容，因此需要通过抓包找到真实的请求地址，通过对XHR进行筛选，很容易就找到了真实的请求地址。真
复制链接

扫一扫