前言:
根据搜索相关的职位,获取职位数量,由职位数量得到职位相关页码链接,再由相关页码链接获得每个职位链接,最后由职位链接获取详细的职位描述。以上获得链接和职位描述由正则表达式完成。
环境:win7 、pycharm、python2、
所用到的库:urllib2 、 re、urllib、time 、jieba、matplotlib、wordcloud、numpy、PIL
文件组成:
main.py ----主要函数文件包括获取页码链接、获取每页职位链接、获取职位描述、爬取信息保存职位描述为txt文本
zhaopin_wordcloud.py ----根据保存文本信息生成词云
mysh.ttf ----为生成词云准备的字体文件
info.txt ----保存职位描述为txt文本
代码如下:
main.py
#coding:utf-8
import urllib2
import urllib
import re
import time
#获取页码链接
def getpagelist(name):
url = "https://sou.zhaopin.com/jobs/searchresult.ashx?"
# 模拟浏览器头部
headers = {
"User-Agent": "Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/60.0.1"
}
word = {"kw": name} # 相关职位
word =