python 爬虫学习：抓取智联招聘网站职位信息(二)

最新推荐文章于 2024-06-20 19:40:13 发布

JordanPanther

最新推荐文章于 2024-06-20 19:40:13 发布

阅读量2.1k

点赞数

分类专栏： Python 爬虫文章标签： python 数据分析

本文链接：https://blog.csdn.net/pxy1993/article/details/105326949

版权

在前文中，我们抓取了智联招聘上深圳+广州地区银行+客户经理的职位信息并进行了初步分析。本文使用jieba分词库去除停用词，对职位要求进行分词处理，并通过词频统计和wordcloud库生成词云图，以直观展示职位需求的关键词分布。最后，我们展示了生成的词云结果，标志着职位抓取和数据分析的完成。

摘要由CSDN通过智能技术生成

在第一篇文章（python 爬虫学习：抓取智联招聘网站职位信息(一)）中，我们介绍了爬取智联招聘网站上基于岗位关键字，及地区进行搜索的岗位信息，并对爬取到的岗位工资数据进行统计并生成直方图展示；同时进入每个职位明细页面提取出职位要求部分的页面内容，经数据清洗后将职位要求部分写入txt文件（FILEPATH+FILENAME + ‘-requirements.TXT’）；接下来我们要对该txt文件中的数据进行分词及词频分析并生成词频统计图。
可以看到我们对深圳+广州地区的银行+客户经理岗位进行抓取到的数据文件中（深圳+广州地区银行+客户经理岗位统计结果-requirements.txt），显示的是所有岗位明细的要求数据：
在这里插入图片描述
因此我们需要使用python的分词库，jieba分词来对以上文本进行分词处理：

# 结巴分词
content = read_txt_file(path)
segment = jieba.lcut(content)
words_df = pd.DataFrame({'segment': segment})
# 剔除停止词
stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep=" ", names=['stopword'], encoding

最低0.47元/天解锁文章

JordanPanther

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫学习：抓取智联招聘网站职位信息(二)

在第一篇文章（python 爬虫学习：抓取智联招聘网站职位信息(一)）中，我们介绍了爬取智联招聘网站上基于岗位关键字，及地区进行搜索的岗位信息，并对爬取到的岗位工资数据进行统计并生成直方图展示；同时进入每个职位明细页面提取出职位要求部分的页面内容，经数据清洗后将职位要求部分写入txt文件（FILEPATH+FILENAME + ‘-requirements.TXT’）；接下来我们要对该txt文件中...
复制链接

扫一扫

专栏目录