Hadoop大作业

1.将爬虫大作业产生的csv文件上传到HDFS,选取的文件是hhh.csv,大约30000条数据

创建文件夹,导入hhh.csv文件并查看。并启动hadoop

将hhh.csv文件导入hdfs中

导入数据库hive中,创建数据库dbpy,创建表hhh_py,并查看前五行数据。

用select选取城市相同的并求和

再次创建hyz1_py表,做同样操作发现没有问题

用语句select city count(distinct positionID) as sum group by city order by sum 统计并排序查看城市最多得,得到结果北京用户最多

用select time from hyz1_py limit 5 选取前5条数据看出最后一位用户评论时间是2019 - 6 - 15 19:57

用select * from hyz1_py where mark='5' limit 10  选取评分为5分的前十条用户数据

 

用select count(*) from hyz1_py where mark='5'  对评分为5的数据进行求和 共有13926条

用 select avg(mark) from hyz1_py 对评分求平均数 

转载于:https://www.cnblogs.com/Bthomson/p/11032204.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值