手把手带你抓取智联招聘的“数据分析师”岗位!

前言


很多网友在后台跟我留言,是否可以分享一些爬虫相关的文章,我便提供了我以前写过的爬虫文章的链接(如下链接所示),大家如果感兴趣的话也可以去看一看哦。在本文中,我将以智联招聘为例,分享一下如何抓取近5000条的数据分析岗信息

往期爬虫链接

上海历史天气和空气质量数据获取(Python版)

网络爬虫-京东优惠活动数据分析

快来看看招商银行理财产品数据(代码及分析)

用Python爬下6万共享单车数据,谈谈单车热潮中的城市

百度指数之图像数字识别(2)

抓取百度指数引发的图像数字识别

一件有趣的事: 爬了爬自己的微信朋友

看看融资界都有哪些事情发生

【干货】手把手带你抓“网上购物”类APP信息(含代码)

快来围观2W+的豆瓣电影分类排行榜(含代码)

什么?你了解二手车市场?(含爬虫代码)

(干货)数据分析案例--以上海二手房为例

通过Python抓取天猫评论数据

使用Python实现豆瓣阅读书籍信息的获取

使用Python爬取网页图片

 

爬虫流程

首先简单聊一下Python抓取互联网数据的一般步骤,如下图所示:

1)发送请求,向对方服务器发送待抓取网站的链接URL;
2)返回请求,在不发生意外的情况下(意外包括网络问题、客户端问题、服务器问题等),对方服务器将会返回请求的内容(即网页源代码)
3)数据存储,利用正则表达式或解析法对源代码作清洗,并将目标数据存储到本地(txt、csv、Excel等)或数据库(MySQL、SQL Server、MongoDB等)

爬虫实操

接下来,在理解了爬虫流程之后,我们借助于智联招聘的网站,跟大家分析如何一步一步的完成数据的抓取。
寻找目标URL
        如下图所示,是在智联招聘网站上搜索“数据分析师”岗位后的响应结果。按照常理,需要按一下键盘中的F12键,对网页内容进行监控。

                                                                  

 

接着,在原网页中下来滚动条,并点击“下一页”,此时右侧的监控台便发生了变化,读者需要按下图进行选择:

经过这四步的选择,就可以发现招聘网站上的信息都在这个Preview(预览)里面。那么问题来了,需要抓取的URL是什么呢?此时只需点击Headers卡即可,你会发现请求链接就是下图中框出来的部分:

 

发送请求并返回请求内容
        既然找到了目标URL,下面要做的就是基于Python向智联招聘的服务器发送请求了,具体代码如下:

import requests  # 用于发送URL请求
import pandas as pd # 用于构造数据框
import random  # 用于产生随机数
import time  # 用于时间停留# 

根据第一页的URL,抓取“数据分析师”岗位的信息
url = r'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&kt=3&lastUrlQuery=%7B%22jl%22:%22489%22,%22kw%22:%22%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88%22,%22kt%22:%223%22%7D&at=9c5682b1a4f54de89c899fb7efc7e359&rt=54eaf1be1b8845c089439d53365ea5dd&_v=0.84300214&x-zp-page-request-id=280f6d80d733447fbebafab7b8158873-1541403039080-617179'
# 构造请求的头信息,防止反爬虫
headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
# 利用requests包中的get函数发送请求
response = requests.get(url, headers = headers)
# 基于response返回Json数据
datas = response.json()

如上结果所示,即为抓取回来的招聘信息,这些信息是以字典的形式存储起来的。需要说明的是,在发送请求的代码中,添加了请求头信息,其目的就是防止对方服务器禁止Python爬虫。关于头信息可以在Headers选项中的“Request Headers”部分找到,读者只需将“User-Agent”值摘抄下来即可。

内容解析(Json)
        下面利用字典的键索引知识,将所需字段的值解析出来。这里不妨以公司名称为例,利用字典的索引技术将其取出来。具体如下图所示:

OK,按照如上的策略,便可以取出其他字段的信息,具体代码如下:

# 根据Json数据返回每一条招聘信息# 返回公司名称
company = [i['company']['name'] for i in response.json()['data']['results']]
# 返回公司规模
size = [i['company']['size']['name'] for i in response.json()['data']['results']]
# 返回公司类型
type = [i['company']['type']['name'] for i in response.json()['data']['results']]
# 返回公司招聘信息
positionURL = [i['positionURL'] for i in response.json()['data']['results']]
# 返回工作经验的要求
workingExp = [i['workingExp']['name'] for i in response.json()['data']['results']]
# 返回教育水平的要求
eduLevel = [i['eduLevel']['name'] for i in response.json()['data']['results']]
# 返回薪资水平
salary = [i['salary'] for i in response.json()['data']['results']]
# 返回工作岗位名称
jobName = [i['jobName'] for i in response.json()['data']['results']]
# 返回福利信息
welfare = [i['welfare'] for i in response.json()['data']['results']]
# 返回岗位所在城市
city = [i['city']['items'][0]['name'] for i in response.json()['data']['results']]
# 返回经度
lat = [i['geo']['lat'] for i in response.json()['data']['results']]
# 返回纬度
lon = [i['geo']['lon'] for i in response.json()['data']['results']]
# 将返回的信息构造表格
pd.DataFrame({'company':company,'size':size,'type':type,'positionURL':positionURL,
              'workingExp':workingExp,'eduLevel':eduLevel,'salary':salary,
              'jobName':jobName,'welfare':welfare,'city':city,'lat':lat,'lon':lon})

数据存储
        如上操作只是将招聘网站中的第一页内容抓取下来,如果需要抓取n多页,就需要借助于for循环的技术。但在循环之前,需要准确找到目标链接的规律,然后使用for循环就水到渠成了。所以,我们按照之前的方法,找到第二页、第三页、第四页链接,然后发现其中的规律,如下图所示:

如上图所示,在链接中只有一部分内容发生变化,即“start=”,而其他部分都保持不变。所以,按照这个规律就可以对多页内容进行抓取,代码如下:

# 构造空列表,用于存储各页的招聘信息
jobs = []
# 利用for循环,生成规律的链接,并对这些链接进行请求的发送和解析内容
for i in range(0,6001,60):
    url = 'https://fe-api.zhaopin.com/c/i/sou?start='+str(i)+'&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&kt=3&lastUrlQuery=%7B%22p%22:5,%22jl%22:%22489%22,%22kw%22:%22%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88%22,%22kt%22:%223%22%7D&at=17a95e7000264c3898168b11c8f17193&rt=57a342d946134b66a264e18fc60a17c6&_v=0.02365098&x-zp-page-request-id=a3f1b317599f46338d56e5d080a05223-1541300804515-144155'
    response = requests.get(url, headers = headers)
    print('Down Loading:','https://fe-api.zhaopin.com/c/i/sou?start='+str(i)+'&pageSize=60','......')

    company = [i['company']['name'] for i in response.json()['data']['results']]
    size = [i['company']['size']['name'] for i in response.json()['data']['results']]
    type = [i['company']['type']['name'] for i in response.json()['data']['results']]
    positionURL = [i['positionURL'] for i in response.json()['data']['results']]
    workingExp = [i['workingExp']['name'] for i in response.json()['data']['results']]
    eduLevel = [i['eduLevel']['name'] for i in response.json()['data']['results']]
    salary = [i['salary'] for i in response.json()['data']['results']]
    jobName = [i['jobName'] for i in response.json()['data']['results']]
    welfare = [i['welfare'] for i in response.json()['data']['results']]
    city = [i['city']['items'][0]['name'] for i in response.json()['data']['results']]
    lat = [i['geo']['lat'] for i in response.json()['data']['results']]
    lon = [i['geo']['lon'] for i in response.json()['data']['results']]    
    
    # 随机生成5~8之间的实数,用于页面的停留时长(仍然是防止反爬虫)
    seconds = random.randint(5,8)
    time.sleep(seconds)    
    # 将每一页的内容保存到jobs列表中
    jobs.append(pd.DataFrame({'company':company,'size':size,'type':type,'positionURL':positionURL,
                              'workingExp':workingExp,'eduLevel':eduLevel,'salary':salary,
                              'jobName':jobName,'welfare':welfare,'city':city,'lat':lat,'lon':lon}))

# 拼接所有页码下的招聘信息
jobs2 = pd.concat(jobs)
# 将数据导出到Excel文件中
jobs2.to_excel('jobs.xlsx', index = False)

如上结果所示,即为数据导出后的Excel效果图。在下一期,我将针对抓取回来的数据,进行内容的分析。

 

结语

OK,关于使用Python完成招聘网站数据的抓取就分享到这里,如果你有任何问题,欢迎在公众号的留言区域表达你的疑问。同时,也欢迎各位朋友继续转发与分享文中的内容,让更多的人学习和进步。
关于Python的其他知识(包括数据的清洗、整理、运算、分析、可视化和建模),读者可以查阅我的新书《从零开始学Python数据分析与挖掘》,如果您对书中的内容有任何疑问,都可以联系我。

本文中的代码和数据可以从百度云盘中下载,只需关注数据分析1480”公众号,并回复智联招聘”即可。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
要使用PyTorch实现MNIST数据集的手把手教程,你可以按照以下步骤进行操作: 1. 导入所需的库和模块。这包括PyTorch库和其他必要的辅助功能库。 2. 获取并预处理数据集。你可以使用MNIST数据集,该数据集包含了0到9的手写数字图像。可以使用torchvision库中的函数来下载和加载MNIST数据集。然后,你需要对图像进行预处理,例如将其转换为张量、进行归一化等。 3. 构建模型。在PyTorch中,你可以使用nn.Module类来定义模型。你可以选择使用卷积神经网络(CNN)或全连接神经网络(FNN)来构建模型。根据模型的复杂性和准确性需求进行选择。 4. 定义损失函数和优化器。根据你的问题和模型的输出类型,选择适当的损失函数,例如交叉熵损失函数。然后选择一个优化器,例如随机梯度下降(SGD)或Adam优化器。 5. 编写训练循环。在训练循环中,你需要定义训练过程中的前向传播、计算损失、反向传播和参数更新操作。同时,你还可以添加其他功能,例如计算准确率、记录训练损失等。 6. 编写测试循环。在测试循环中,你需要定义测试过程中的前向传播和计算准确率操作。 7. 定义主要函数。在主要函数中,你需要调用前面定义的函数和模型,对数据进行训练和测试,并输出结果。 请注意以上步骤只是一个大致的框架,具体的实现细节和代码可以根据你的需求和实际情况进行调整和修改。在实际操作中,你可能还需要考虑其他因素,例如数据扩充、模型调参和模型保存等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [PyTorch 手把手教你实现 MNIST 数据集](https://blog.csdn.net/weixin_46274168/article/details/118271544)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [使用自然语言TensorFlow或PyTorch构建模型处理(NLP)技术构建一个简单的情感分析模型(附详细操作步骤)....](https://download.csdn.net/download/weixin_44609920/88234133)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sim1480

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值