Python爬虫进阶(八)——爬虫Scrapy实战之爬取腾讯招聘信息

本文详细介绍了使用Python Scrapy框架爬取腾讯招聘信息的步骤,包括分析url、创建scrapy项目、设置start_urls、提取数据、解析函数的定义、使用items文件以及保存数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面咱们介绍了scrapy框架的使用,今天就来实战,爬取一下腾讯招聘的职位信息。

一、分析url
二、创建scrapy项目并生成爬虫
三、提取数据
四、保存数据

一、分析url

先确定url,这是网站的url:

url = 'https://careers.tencent.com/search.html'

咱们的需求是获取职位的名称、下面的工作职责、工作需求,并实现翻页操作。

分析网页源代码,发现这些信息都不在源码中,考虑使用抓包工具,进入network,刷新后出现一个带有“query”的文件,可以从中找到咱们想要的信息。因此,现在的url就是要作为起始的url:
在这里插入图片描述
起始url(列表页,总的职位信息页面)为:

one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1598155090173&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'

同样的方法,能找到起始url(详情页,单个职位的具体信息页面)为:

two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1598168153899&postId=1228141057842089984&language=zh-cn'

二、创建scrapy项目并生成爬虫

现在,通过terminal终端创建一个scrapy项目
scrapy startproject tencent
在这里插入图片描述
创建爬虫scrapy genspider hr tencent.com
在这里插入图片描述
此时,咱们的scrapy爬虫框架就建好了,接下来进行相应的修改

点开爬虫文件hr.py,把上一步确定的起始url添加到start_urls中
在这里插入图片描述

三、提取数据

1.对setting文件进行设置

为了不让其他信息显示出来干扰数据,设置中加入如下字段:

LOG_LEVEL = 'WARNING'

如下图:
在这里插入图片描述

2.添加start文件

在总目录下添加start.py文件,用于运行爬虫。
在这里插入图片描述
start文件代码如下:

from scrapy import cmdline

cmdline.execute(['scrapy','crawl',<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值