作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
前言:
根据之前博客搭的hadoop,对之前爬取出来的数据进行分析。
操作:
1.将爬取的数据集abcde.csv展示出来:
2.去掉标题行:
3.对数据集文件进行预处理操作,并生成abcde.txt文件:
4.启动hadoop集群,启动HDFS:
5.将数据集上传到hdfs:
6.创建数据库并导入数据:
7.对导入的数据进行计数,有4980条数据:
8.对学历要求进行分析,发现不限:1677,本科:2415,硕士:253,博士:5
8.对城市分布进行分析发现北京占数最多,为1642,上海次之,为935,广州第三,593
9.对公司人数进行分析,500以上人数的公司约占四分之一,50人以下的公司占404,说明实习僧招聘的公司规模的人数不算少。
10.对发布的公司进行分组排序,发现帮范儿招聘职位最多,高达64,可能为猎头公司。
11.对职位分类进行了分析,发现计算机/互联网相关的分类占数最多,仍未饱和,前景不错: