人工智能就业怎么样?我用Python爬取关于人工智能的工作信息

本文通过Python爬虫技术分析51job上的人工智能职位信息,详细介绍了URL解析、HTML界面分析和爬虫代码实现过程,揭示了人工智能领域的就业现状。
摘要由CSDN通过智能技术生成

微信公众号:DeepThinkerr
B站:DeepThinkerr

在微信公众号回复 “51job数据爬取” 获取Python代码源文件和数据结果
(本博客在《利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论》启发下创作,目前只爬取了数据,没有进行数据清洗。

一、URL分析

51job搜索人工智能的网站:https://search.51job.com/list/000000,000000,7300,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

  这URL看上去是不是吓死人,其中这里边大部分都是废话真正有用的部分很短,先上第一页和第二页的URL,对比分析。
在这里插入图片描述
  了解URL的可以知道,第一页和第二页的URL的页面参数参数分别为1和2,在看整个URL过程中,注意出现1和2的位置。一边URL的页面参数会在后边列出关键词(例如:p=1 or page=1),但是这个URL比特殊,页面参数在前边,如下图所示。
在这里插入图片描述
  可以看到,两个URL在红色方框里边分别对应1和2,可能是页面参数。对不对试试就知道了,将参数改为3,再输入浏览器。
在这里插入图片描述
  这个时候就到了第三页,这个时候就找到了URL的页面参数,但是这个URL看上去太长了,尝试将html?后边去掉,在看浏览器页面。惊奇的发现两者是一样的,这样将后边的吊车尾去掉,看上去就舒服多了,最后在Python中URL为:

“ https://search.51job.com/list/000000,000000,7300,00,9,99,%2B,2,” + 页面 + “.html?”

二、HTML界面分析

  页面分析完了,就需要分析页面的HTML代码了,首先利用Ctrl+F找到需要爬取的信息位置(例如 搜索“ 长沙海贝智能科技有限公司”)。这样就找到需要解析的页面位置,如下图。
在这里插入图片描述
  观察两个工作的结构,可以发现每一个工作的信息都放在 “

”的“
”内部,如下图所示。
在这里插入图片描述

三、爬虫代码

3.1 使用Python库

Name Version
requests 2.24.0
beautifulsoup4 4.9.1
pandas 1.0.5
lxml 4.5.2
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值