人工智能就业怎么样？我用Python爬取关于人工智能的工作信息

最新推荐文章于 2024-04-22 15:11:02 发布

DeepThinkerr

最新推荐文章于 2024-04-22 15:11:02 发布

阅读量352

点赞数

分类专栏： Python爬虫文章标签： python xpath 数据挖掘人工智能

本文链接：https://blog.csdn.net/Fate_mt/article/details/107495414

版权

本文通过Python爬虫技术分析51job上的人工智能职位信息，详细介绍了URL解析、HTML界面分析和爬虫代码实现过程，揭示了人工智能领域的就业现状。

摘要由CSDN通过智能技术生成

微信公众号：DeepThinkerr
B站：DeepThinkerr

在微信公众号回复 “51job数据爬取” 获取Python代码源文件和数据结果
（本博客在《利用 Python 爬取了 13966 条运维招聘信息，我得出了哪些结论》启发下创作，目前只爬取了数据，没有进行数据清洗。

一、URL分析

51job搜索人工智能的网站：https://search.51job.com/list/000000,000000,7300,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

这URL看上去是不是吓死人，其中这里边大部分都是废话真正有用的部分很短，先上第一页和第二页的URL，对比分析。
在这里插入图片描述
了解URL的可以知道，第一页和第二页的URL的页面参数参数分别为1和2，在看整个URL过程中，注意出现1和2的位置。一边URL的页面参数会在后边列出关键词（例如：p=1 or page=1），但是这个URL比特殊，页面参数在前边，如下图所示。
在这里插入图片描述
可以看到，两个URL在红色方框里边分别对应1和2，可能是页面参数。对不对试试就知道了，将参数改为3，再输入浏览器。

这个时候就到了第三页，这个时候就找到了URL的页面参数，但是这个URL看上去太长了，尝试将html？后边去掉，在看浏览器页面。惊奇的发现两者是一样的，这样将后边的吊车尾去掉，看上去就舒服多了，最后在Python中URL为：

“ https://search.51job.com/list/000000,000000,7300,00,9,99,%2B,2,” + 页面 + “.html?”

二、HTML界面分析

页面分析完了，就需要分析页面的HTML代码了，首先利用Ctrl+F找到需要爬取的信息位置（例如搜索“ 长沙海贝智能科技有限公司”）。这样就找到需要解析的页面位置，如下图。
在这里插入图片描述
观察两个工作的结构，可以发现每一个工作的信息都放在 “

”的“

”内部，如下图所示。
在这里插入图片描述

三、爬虫代码

3.1 使用Python库

Name	Version
requests	2.24.0
beautifulsoup4	4.9.1
pandas	1.0.5
lxml	4.5.2

最低0.47元/天解锁文章

DeepThinkerr

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
人工智能就业怎么样？我用Python爬取关于人工智能的工作信息

微信公众号：逐梦的小白B站：逐梦的小白在微信公众号（逐梦的小白）回复 “51job数据爬取” 获取Python代码源文件和数据结果（本博客在《利用 Python 爬取了 13966 条运维招聘信息，我得出了哪些结论》启发下创作，目前只爬取了数据，没有进行数据清洗。一、URL分析51job搜索人工智能的网站：https://search.51job.com/list/000000,000000,7300,00,9,99,%2520,2,1.html?lang=c&stype=&pos
复制链接

扫一扫

专栏目录