python爬取boss直聘绘制招聘要求词云图

python爬取boss直聘绘制招聘要求词云图

前言

因为最近在找工作,所以对招聘信息比较上心。昨天突然想到用python爬虫爬取招聘要求,提取关键词绘制词云图,看看哪些要求比较重要。

python版本号:3.6.3
完整代码的github地址:https://github.com/AIjugg/zcc_wordcloud

效果图

在这里插入图片描述
在这里插入图片描述

爬虫部分

解析网页用的是BeautifulSoup

由于boss直聘的网页信息量非常大,因此寻找需要的元素相当地费劲,一个是岗位详情的url,里面有我需要的岗位要求,还有一个是当前网页下一页的url。

具体的做法是先将当前页的所有岗位的url加入到一个list中,再进入下一页,如此循环。代码中我一共获取了三页的岗位url。

然后就是遍历岗位url,将读取的岗位要求写入到指定的txt中。这里可以进一步改进,不需要写txt,毕竟写文件的效率较低。

需要注意的是,boss直聘官网会限制爬虫,同一个ip访问速度太快就会跳出验证码限制访问。我暂时没有什么好的方法解决这个问题,以后有兴趣再来研究一下吧。

词云图的生成

在我的上一篇博客中详细说明了词云图函数中参数的作用。这里的屏蔽词就挑那些不重要的、你不需要的词语就好了。

代码使用说明

直接运行main.py文件即可,可以自己改一些入参。背景图片、txt记录文本、生成的词云图被分别放到了三个不同的文件夹。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值