数据仓库Hive的使用
一、试验目的要求
【实验目的】
- 掌握数据仓库Hive的使用。
- 掌握数据仓库工具Hive的使用。
【实验要求】 - 掌握数据仓库Hive的使用。
- 能够正常操作数据库,表,数据。
二、试验环境
- 五台独立PC机或虚拟机
- 主机之间有有效的网络连接
- 已安装CentOS 7.4操作系统
- 所有主机已完成网络属性配置
三、试验内容
任务一 启动hadoop集群





任务二 启动Hive,查看当前的数据库列表



练习






任务三 Hive的数据模型—分区表









登录http://192.168.10.111;8080/cluster/apps查看job执行状态

(1)准备数据,在admin家目录下分别新建
student1.txt

student2.txt

student3.txt



将文件放入HDFS文件系统


(2)创建外部表

(3)查询外部表

(4)删除HDFS上的student1.txt

(5)查询外部表

(6)将student1.txt重新放入HDFS input目录下

(7)查询外部表

任务四 Hive的数据模型—桶表
对数据HASH运算,房子啊不同文件中,降低热块,提高查询速度

准备文本数据


将文本数据插入到非桶数据表






任务五 Hive的数据模型—视图





创建一个view之前,用explain查看创建view

实际创建一个view





四、体会心得
1.在实验前一定要将课堂上所学的理论知识吃透,这是做实验的基础。否则在后续的实验过程中会增加难度,浪费时间。在老师讲解时就会听不懂,这将使我们在做实验时的难度加大,浪费做实验的宝贵时间。如果不清楚,在做实验时才去摸索,这将使你极大地浪费时间,使你事倍功半。
2.实验过程中,尽量减少操作的盲目性,清楚每做一步都是在做什么,为什么做, 当然,这也是在清楚实验原理与实验目的的基础之上的。每一步都要认真细心,配置正确,以免由于粗心大意配置错误导致后面的实验不能继续进行,而返回来重新配置浪费时间;
3.实验中出现问题时,保持冷静,不要自乱阵脚,先分析出现错误的原因,先自己解决问题;若没有解决思路,可以通过上网查询或者向同学请教;实在没有办法,还可以向老师求助;
通过这次实验,使我不但对之前所学的理论知识有了更深刻的理解和加深,而且对于动手动脑能力也有了提高,而且也学习了一定的问题处理方法和面对问题的态度,这次实验使我收获颇深!
本次实验详细介绍了Hive数据仓库的使用,包括启动Hadoop集群、查看数据库列表、创建和操作分区表、桶表以及视图。通过实践,加深了对Hive数据模型的理解,尤其是在数据管理和查询优化方面。实验中遇到问题时,保持冷静并尝试自我解决或寻求帮助,提高了问题解决能力和动手能力。
3071

被折叠的 条评论
为什么被折叠?



