python爬虫实例--tencent网站招聘信息

最新推荐文章于 2021-12-29 00:14:20 发布

elsa^-^yxy

最新推荐文章于 2021-12-29 00:14:20 发布

阅读量623

点赞数 2

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/elsa_yxy1984/article/details/107041806

版权

本文记录了一位学习者使用Python爬虫抓取腾讯招聘网站信息的过程。由于网站频繁更新，传统的爬虫代码已无法适用，作者通过自己的实践解决了这一问题。文章分享了解决过程中遇到的挑战及解决方案，旨在为其他学习者提供参考。

摘要由CSDN通过智能技术生成

学习python爬虫一段时间了，想做个实例巩固一下所学的知识。

爬取对象：腾讯招聘网站

不知道是不是被爬的多了，这个网页变动挺大的。

（网上搜到的那些爬虫代码已经不好使了，๑乛◡乛๑）

代码如下：

import urllib
from urllib import request
import re
import json

# 构造请求头信息
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '
                        'x64; rv:77.0) Gecko/20100101 Firefox/77.0'}
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?pageSize=10&language=zh-cn&area=cn&'

pat1 = re.compile('"PostId":"(.*?)"')
x = 0
# 爬取1--3页的招聘信息
for i in range(1, 4):
    kw = {'pageIndex': i}
    kwd = urllib.parse.urlencode(kw)
    url_use = url + kwd
    req = urllib.request.Request(url_use, headers=header)
    data = urllib.request.urlopen(req).read().decode()
    # 使用正则表达式获取职位ID号
    postId = re.findall(pat1,