Hadoop综合大作业

1导入数据表并且去掉头部的第一条数据,然后查看签名5条数据

2 预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换:

3转换后的txt表,可以看见有中文的地区名

4 开启Hadoop,hive

5 在hdfs上创建一个bigdatacase/dataset文件夹

6将之前转换后的txt文件上传到hdfs上面,然后查看内容

7开启MySQL和hive

8创建数据库dblab,并通过命令“use dblab”打开和使用数据库:

 9查找用户地区为北京市,

10 查询用户年龄大于18并且小于30的,

分析:总共有700多条,占了3分之一的人数,看出该音乐的听众年龄范围还是很广的

11查询该音乐有多少评论数,

分析:总数是2108条评论,虽然不是很多,但也是可以用来分析数据的了

12查找没有设置性别的人数,

分析:598/2108 大约是4分之一的人都没有设置用户性别,绝大多数用户对于隐私还是比较看重的了

13查询点赞人数最多的前二十条数据,

分析:可以看出评论点赞最多的还是歌词本身的内容

14查找歌曲名字出现在评论的次数是多少,

分析:人们还是挺在意歌曲名字的

15查看剧中主角之一被提到的次数,

分析:被提到的次数只有个位数,可见该人们更倾向其他内容评论

16查看评论中的男生人数有多少,

分析:发现占比1058/2018 接近一半都是男生在评论,也就是男女比例差不多

17查看广东的男生评论人数有多少,

分析:广东地区听这首音乐的人不是太多

18 查看评论最常的字节长度(147个字节) ,

分析:评论的短小显示出该音乐的的热点并不是很高

 

转载于:https://www.cnblogs.com/manjin666/p/11023796.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值