爬虫项目 | 爬取XX网站招聘信息

/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/

项目背景和功能

毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题,我们设计爬取XX网站的爬虫,能够快速浏览各个公司、行业的招聘信息

引用第三方库

功能选择模块

函数fun()1实现了输入岗位名称,爬取对应岗位名称的数据,导入数据库中

函数fun()2实现了输入公司名称,爬取对应公司招聘信息的数据,导入数据库中

函数fun()3实现了项目分析

代码:

fun1()函数:

定义fun1函数,再运用selenium库中options隐藏浏览器界面

用谷歌浏览器连接网页并运用selenium库去除进入网页的选择地址界面

 再搜索框中输入你想搜索的岗位信息

 爬取数据:xpath来定位所选择的框架位置,while循环来跳转至下一页,直至最后一页结束(这里设置的爬取至20页),for循环来以一个div为一块地爬取信息(多项信息在一起地用切片将数据分割在爬取出来,最后注释部分是未成功部分),最后连接数据库,将爬取数据存入数据库中

爬取效果:

 fun2()函数

原理:定义函数(此函数没有隐藏浏览器),加载进入页面,输入想要搜索的公司,运用selenium库进入公司的主页,点进主页后浏览器会出现新的界面,运用selenium库将光标定位至最右的界面,进行招聘信息的爬取(因为公司主页界面运用span标签写的页面跳转,能力有限,所以只能爬取第一页的10条数据,暂未实现页面跳转功能)

爬取效果:

 

fun3()函数

定义fun3()函数和四个字典,count_exptotal_exp、count_edu、total_edu来记录数据并赋予初始值,然后用查询数据库数据中数据,在for循环中count_exp和count_edu来接收各个学历段和工作经历段出现的次数,total_exp和total_edu来接收各个学历段和各个工作经验的薪水总数。再连接数据库并查询需要的数据

 

运用for循环来将数据一条一条存入定义字典中,当存关键字相符,count_exp和count_edu就+1,薪水都是最高和最低薪水,将最高和最低薪水相加除以2取得这个岗位的平均薪水,然后再将所有与关键字相符的岗位的平均薪水相加求和,再除以与关键字相符的次数count_exp和count_edu,就可以获取到对应工作经验的平均工资和对应学历的平均工资

 在运用matplotlib库中的pyplot来制成分析柱状图

 爬取效果:

 

 

 

 

/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点***/

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值