大数据应用期末总评

 

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

前言:

  根据之前博客搭的hadoop,对之前爬取出来的数据进行分析。

操作:
  1.将爬取的数据集abcde.csv展示出来:

  2.去掉标题行:

  3.对数据集文件进行预处理操作,并生成abcde.txt文件:

  4.启动hadoop集群,启动HDFS:

  5.将数据集上传到hdfs:

  6.创建数据库并导入数据:

7.对导入的数据进行计数,有4980条数据:

8.对学历要求进行分析,发现不限:1677,本科:2415,硕士:253,博士:5

 8.对城市分布进行分析发现北京占数最多,为1642,上海次之,为935,广州第三,593

9.对公司人数进行分析,500以上人数的公司约占四分之一,50人以下的公司占404,说明实习僧招聘的公司规模的人数不算少。

10.对发布的公司进行分组排序,发现帮范儿招聘职位最多,高达64,可能为猎头公司。

11.对职位分类进行了分析,发现计算机/互联网相关的分类占数最多,仍未饱和,前景不错:

 

转载于:https://www.cnblogs.com/GMUK/p/11058734.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值