Python爬虫进阶（八）——爬虫Scrapy实战之爬取腾讯招聘信息

最新推荐文章于 2023-09-17 21:54:51 发布

brilliant666

最新推荐文章于 2023-09-17 21:54:51 发布

阅读量2k

点赞数

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/brilliant666/article/details/108176045

版权

本文详细介绍了使用Python Scrapy框架爬取腾讯招聘信息的步骤，包括分析url、创建scrapy项目、设置start_urls、提取数据、解析函数的定义、使用items文件以及保存数据的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面咱们介绍了scrapy框架的使用，今天就来实战，爬取一下腾讯招聘的职位信息。

一、分析url
二、创建scrapy项目并生成爬虫
 三、提取数据
 四、保存数据

一、分析url

先确定url，这是网站的url：

url = 'https://careers.tencent.com/search.html'

咱们的需求是获取职位的名称、下面的工作职责、工作需求，并实现翻页操作。

分析网页源代码，发现这些信息都不在源码中，考虑使用抓包工具，进入network，刷新后出现一个带有“query”的文件，可以从中找到咱们想要的信息。因此，现在的url就是要作为起始的url：
在这里插入图片描述
起始url（列表页，总的职位信息页面）为：

one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1598155090173&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'

同样的方法，能找到起始url（详情页，单个职位的具体信息页面）为：

two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1598168153899&postId=1228141057842089984&language=zh-cn'

二、创建scrapy项目并生成爬虫

现在，通过terminal终端创建一个scrapy项目：
scrapy startproject tencent
在这里插入图片描述
创建爬虫 ：scrapy genspider hr tencent.com

此时，咱们的scrapy爬虫框架就建好了，接下来进行相应的修改。

点开爬虫文件hr.py，把上一步确定的起始url添加到start_urls中
在这里插入图片描述

三、提取数据

1.对setting文件进行设置

为了不让其他信息显示出来干扰数据，设置中加入如下字段:

LOG_LEVEL = 'WARNING'

如下图:
在这里插入图片描述

2.添加start文件

在总目录下添加start.py文件，用于运行爬虫。
在这里插入图片描述
start文件代码如下：

from scrapy import cmdline

cmdline.execute(['scrapy','crawl',<

最低0.47元/天解锁文章