作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
创建文件夹,再放入数据文件。
预处理并查询数据
设置权限
启动全部服务器
在HDFS上传文件夹/bigdatacase/dataset
在HDFS上传we_table.txt并查询
进入hive模式,创建表格bdlab
使用表格
创建数据类型:id 、用户名、点赞数、时间、评论
查询前十条数据
查询前10的时间
计算出表内多少数据
查出uid不重复的数据
总结:
这次作业是在原来python挖到数据,将数据通过HDFS传入数据库MYSQL中,在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。
问题:1在实验过程中,将CSV文件导入进取时总是遇到乱码,然后设置为UTF-8模式才解决问题。
2在HIVE建表时第一列我本应该为用户名,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,最后通过百度才解决问题。