网络数据获取(以Boss直聘网为例)
获取网页信息
写入html文件
利用BeautifulSoup
from bs4 import BeautifulSoup as bs
BS内容提取
取出“a”标签中所有的链接
找到"p"标签下"b"标签里的内容
结巴分词
分词结果用词云展示
去掉干扰词
统计英文
去除所有中文
生成词云
网络数据获取(以Boss直聘网为例)
获取网页信息
写入html文件
利用BeautifulSoup
from bs4 import BeautifulSoup as bs
BS内容提取
取出“a”标签中所有的链接
找到"p"标签下"b"标签里的内容
结巴分词
分词结果用词云展示
去掉干扰词
统计英文
去除所有中文
生成词云