爬虫项目 | 爬取XX网站招聘信息

最新推荐文章于 2024-05-14 02:41:07 发布

Mr_Woo_

最新推荐文章于 2024-05-14 02:41:07 发布

阅读量5.7k

点赞数 3

文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/LeoJun32/article/details/122079006

版权

/***本人代码小白，第一次做爬虫，代码仅供参考，欢迎大神指点，***/

项目背景和功能

毕业将近，身为大三的我们，面临找工作的压力，如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题，我们设计爬取XX网站的爬虫，能够快速浏览各个公司、行业的招聘信息

引用第三方库

功能选择模块

函数fun()1实现了输入岗位名称，爬取对应岗位名称的数据，导入数据库中

函数fun()2实现了输入公司名称，爬取对应公司招聘信息的数据，导入数据库中

函数fun()3实现了项目分析

代码：

fun1()函数：

定义fun1函数，再运用selenium库中options隐藏浏览器界面

用谷歌浏览器连接网页并运用selenium库去除进入网页的选择地址界面

再搜索框中输入你想搜索的岗位信息

爬取数据：xpath来定位所选择的框架位置，while循环来跳转至下一页，直至最后一页结束（这里设置的爬取至20页），for循环来以一个div为一块地爬取信息（多项信息在一起地用切片将数据分割在爬取出来，最后注释部分是未成功部分），最后连接数据库，将爬取数据存入数据库中

爬取效果：

fun2()函数

原理：定义函数（此函数没有隐藏浏览器），加载进入页面，输入想要搜索的公司，运用selenium库进入公司的主页，点进主页后浏览器会出现新的界面，运用selenium库将光标定位至最右的界面，进行招聘信息的爬取（因为公司主页界面运用span标签写的页面跳转，能力有限，所以只能爬取第一页的10条数据，暂未实现页面跳转功能）

爬取效果：

fun3()函数

定义fun3()函数和四个字典，count_exp、total_exp、count_edu、total_edu来记录数据并赋予初始值，然后用查询数据库数据中数据，在for循环中count_exp和count_edu来接收各个学历段和工作经历段出现的次数，total_exp和total_edu来接收各个学历段和各个工作经验的薪水总数。再连接数据库并查询需要的数据

运用for循环来将数据一条一条存入定义字典中，当存关键字相符，count_exp和count_edu就+1，薪水都是最高和最低薪水，将最高和最低薪水相加除以2取得这个岗位的平均薪水，然后再将所有与关键字相符的岗位的平均薪水相加求和，再除以与关键字相符的次数count_exp和count_edu，就可以获取到对应工作经验的平均工资和对应学历的平均工资

在运用matplotlib库中的pyplot来制成分析柱状图

爬取效果：

/***本人代码小白，第一次做爬虫，代码仅供参考，欢迎大神指点***/

Mr_Woo_

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
爬虫项目 | 爬取XX网站招聘信息

/***本人代码小白，第一次做爬虫，代码仅供参考，欢迎大神指点，***/项目背景和功能毕业将近，身为大三的我们，面临找工作的压力，如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题，我们设计爬取XX网站的爬虫，能够快速浏览各个公司、行业的招聘信息引用第三方库功能选择模块函数fun()1实现了输入岗位名称，爬取对应岗位名称的数据，导入数据库中函数fun()2实现了输入公司名称，爬取对应公司招聘信息的数据，导入数据库中函数fun()3实现了项目分析
复制链接

扫一扫