Hive学习小技能总结

最新推荐文章于 2024-08-16 09:51:25 发布

R_记忆犹新

最新推荐文章于 2024-08-16 09:51:25 发布

阅读量505

点赞数

分类专栏：大数据 R_记忆犹新的大数据学习之路文章标签： Hive Hadoop 小技能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28844767/article/details/80609274

版权

大数据同时被 2 个专栏收录

65 篇文章 1 订阅

订阅专栏

R_记忆犹新的大数据学习之路

35 篇文章 1 订阅

订阅专栏

1、查看到hive执行的历史命令：

进入到用户的主目录，使用命令

cat /home/hadoop/.hivehistory

2、执行查询时若想显示表头信息时，可以执行命令

Hive> set hive.cli.print.header=true;

3、hive的执行日志的存储目录在${java.io.tmpdir}/${user.name}/hive.log中，假如使用hadoop用户操作的hive，那么日志文件的存储路径为：/tmp/hadoop/hive.log

4、注意：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

外部表和内部表的选择：

1、如果数据已经存储在HDFS上了，然后需要使用Hive去进行分析，并且该分数据还有可能要使用其他的计算引擎做计算之用，请使用外部表

2、如果一份数据仅仅只是使用Hive做统计分析，那么可以使用内部表

不管使用内部表和外部表，表的数据存储路径都是可以通过location指定的！

推荐方式：

1、创建内部表的时候，最好别指定location，就存储在默认的仓库路径

2、如果要指定外部路径，那么请创建该表为外部表

5、分桶：

对于每一个表(table)或者分区，Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值hash，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

把表(或者分区)组织成桶(Bucket)有两个理由：

1、获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在(包含连接列的)相同列上划分了桶的表，可以使用Map端连接(Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大减少JOIN的数据量。

2、使取样(samping)更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

R_记忆犹新 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。