大数据运用期末总评

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

创建文件夹,再放入数据文件。

预处理并查询数据

设置权限

 启动全部服务器

 在HDFS上传文件夹/bigdatacase/dataset

 

 在HDFS上传we_table.txt并查询

 进入hive模式,创建表格bdlab

 使用表格

 创建数据类型:id 、用户名、点赞数、时间、评论

 查询前十条数据

 查询前10的时间

 计算出表内多少数据

 

 查出uid不重复的数据

 

总结:

这次作业是在原来python挖到数据,将数据通过HDFS传入数据库MYSQL中,在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。

问题:1在实验过程中,将CSV文件导入进取时总是遇到乱码,然后设置为UTF-8模式才解决问题。

           2在HIVE建表时第一列我本应该为用户名,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,最后通过百度才解决问题。

转载于:https://www.cnblogs.com/tianshizhao/p/11046818.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值