任务:
用后羿采集器采集拉勾网“行业信息”数据。
用excel的分列进行数据清洗。
用excel的透视图进行行业信息分析。
制作词云。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
准备工作:
下载安装后羿采集器
词云链接:https://www.weiciyun.com/
拉勾网:https://www.lagou.com/
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1数据采集
拉勾网搜索数据分析师,工作地点选择上海,结果如下。复制目前的网页链接。
打开后羿采集器,选择智能模式开始采集,粘贴刚才的链接到网址导入的框里。
接着点击立即创建。
便加载出来以下页面。
现在去广告!!!点击链接右边的绿色圆点,点击弹框中的“给也不要”,然后会出现下面这个小框,点击“点击一次该元素”,接着点击“保存并退出即可”。
然后就可以采集自己需要的数据了!
2使用Excel的“分列”对数据进行清洗
采集到地数据如下。
全选第一列,然后点击“数据”,“分列”,“下一步”。
勾选如下。点“下一步”,“完成”。
分列结果如下。
3用excel的透视表对行业信息(分列后的第一列进行分析)
将“字段1”改为“行业信息”,全选第一列,“插入”,“数据透视表”,“确定”,出现如下页面。
勾选右边的“行业信息”,拖到下方“值” 的位置。
结果如下。完成。
4词云
打开词云制作网址:https://www.weiciyun.com/
点击“开始创建”。“内容”,“导入单词”,“分次筛选后导入”。
复制粘贴第一列到“word”中, 在word中保存后,复制到“分次筛选后导入”的框里。
点“开始分词”
点“确定适用所选单词”。
点“批量配置”,“全选”,“加载词云”。
便完成了!