数据仓库Hive的使用
一、试验目的要求
【实验目的】
- 掌握数据仓库Hive的使用。
- 掌握数据仓库工具Hive的使用。
【实验要求】 - 掌握数据仓库Hive的使用。
- 能够正常操作数据库,表,数据。
二、试验环境
- 五台独立PC机或虚拟机
- 主机之间有有效的网络连接
- 已安装CentOS 7.4操作系统
- 所有主机已完成网络属性配置
三、试验内容
任务一 启动hadoop集群
任务二 启动Hive,查看当前的数据库列表
练习
任务三 Hive的数据模型—分区表
登录http://192.168.10.111;8080/cluster/apps查看job执行状态
(1)准备数据,在admin家目录下分别新建
student1.txt
student2.txt
student3.txt
将文件放入HDFS文件系统
(2)创建外部表
(3)查询外部表
(4)删除HDFS上的student1.txt
(5)查询外部表
(6)将student1.txt重新放入HDFS input目录下
(7)查询外部表
任务四 Hive的数据模型—桶表
对数据HASH运算,房子啊不同文件中,降低热块,提高查询速度
准备文本数据
将文本数据插入到非桶数据表
任务五 Hive的数据模型—视图
创建一个view之前,用explain查看创建view
实际创建一个view
四、体会心得
1.在实验前一定要将课堂上所学的理论知识吃透,这是做实验的基础。否则在后续的实验过程中会增加难度,浪费时间。在老师讲解时就会听不懂,这将使我们在做实验时的难度加大,浪费做实验的宝贵时间。如果不清楚,在做实验时才去摸索,这将使你极大地浪费时间,使你事倍功半。
2.实验过程中,尽量减少操作的盲目性,清楚每做一步都是在做什么,为什么做, 当然,这也是在清楚实验原理与实验目的的基础之上的。每一步都要认真细心,配置正确,以免由于粗心大意配置错误导致后面的实验不能继续进行,而返回来重新配置浪费时间;
3.实验中出现问题时,保持冷静,不要自乱阵脚,先分析出现错误的原因,先自己解决问题;若没有解决思路,可以通过上网查询或者向同学请教;实在没有办法,还可以向老师求助;
通过这次实验,使我不但对之前所学的理论知识有了更深刻的理解和加深,而且对于动手动脑能力也有了提高,而且也学习了一定的问题处理方法和面对问题的态度,这次实验使我收获颇深!