python 爬虫学习:抓取智联招聘网站职位信息(二)

在前文中,我们抓取了智联招聘上深圳+广州地区银行+客户经理的职位信息并进行了初步分析。本文使用jieba分词库去除停用词,对职位要求进行分词处理,并通过词频统计和wordcloud库生成词云图,以直观展示职位需求的关键词分布。最后,我们展示了生成的词云结果,标志着职位抓取和数据分析的完成。
摘要由CSDN通过智能技术生成

在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示;同时进入每个职位明细页面提取出职位要求部分的页面内容,经数据清洗后将职位要求部分写入txt文件(FILEPATH+FILENAME + ‘-requirements.TXT’);接下来我们要对该txt文件中的数据进行分词及词频分析并生成词频统计图。
可以看到我们对深圳+广州地区的银行+客户经理岗位进行抓取到的数据文件中(深圳+广州地区银行+客户经理岗位统计结果-requirements.txt),显示的是所有岗位明细的要求数据:
在这里插入图片描述
因此我们需要使用python的分词库,jieba分词来对以上文本进行分词处理:

# 结巴分词
content = read_txt_file(path)
segment = jieba.lcut(content)
words_df = pd.DataFrame({'segment': segment})
# 剔除停止词
stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep=" ", names=['stopword'], encoding
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值