爬取智联招聘岗位描述并根据描述生成词云

最新推荐文章于 2024-06-09 23:55:35 发布

高智商的坏蛋

最新推荐文章于 2024-06-09 23:55:35 发布

阅读量1.7k

点赞数 1

分类专栏： python爬虫学习之路文章标签：爬虫词云智联招聘

本文链接：https://blog.csdn.net/qq_36381299/article/details/80634451

版权

本文介绍了如何使用Python爬虫技术从智联招聘网站抓取职位描述，通过正则表达式处理数据，然后利用jieba、matplotlib、wordcloud等库生成词云。词云结果显示Python相关工作强调工作经验、数据库技术和优化技能。

摘要由CSDN通过智能技术生成

前言：

根据搜索相关的职位，获取职位数量，由职位数量得到职位相关页码链接，再由相关页码链接获得每个职位链接，最后由职位链接获取详细的职位描述。以上获得链接和职位描述由正则表达式完成。

环境：win7 、pycharm、python2、

所用到的库：urllib2 、 re、urllib、time 、jieba、matplotlib、wordcloud、numpy、PIL

文件组成：

main.py ----主要函数文件包括获取页码链接、获取每页职位链接、获取职位描述、爬取信息保存职位描述为txt文本

zhaopin_wordcloud.py ----根据保存文本信息生成词云

mysh.ttf ----为生成词云准备的字体文件

info.txt ----保存职位描述为txt文本

代码如下：

main.py

#coding:utf-8
import urllib2
import urllib
import re
import time
#获取页码链接
def getpagelist(name):
    url = "https://sou.zhaopin.com/jobs/searchresult.ashx?"
    # 模拟浏览器头部
    headers = {
        "User-Agent": "Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/60.0.1"
    }
    word = {"kw": name}  # 相关职位
    word =