Hive学习小技能总结

1、查看到hive执行的历史命令:

进入到用户的主目录,使用命令

cat /home/hadoop/.hivehistory

2、执行查询时若想显示表头信息时,可以执行命令

Hive> set hive.cli.print.header=true;
3、hive的执行日志的存储目录在${java.io.tmpdir}/${user.name}/hive.log中,假如使用hadoop用户操作的hive,那么日志文件的存储路径为:/tmp/hadoop/hive.log

4、注意:在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。

外部表和内部表的选择:

    1、如果数据已经存储在HDFS上了,然后需要使用Hive去进行分析,并且该分数据还有可能要使用其他的计算引擎做计算之用,请使用外部表

    2、如果一份数据仅仅只是使用Hive做统计分析,那么可以使用内部表

不管使用内部表和外部表,表的数据存储路径都是可以通过location指定的!

    推荐方式:

        1、创建内部表的时候,最好别指定location,就存储在默认的仓库路径

        2、如果要指定外部路径,那么请创建该表为外部表

5、分桶:

对于每一个表(table)或者分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值hash,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    把表(或者分区)组织成桶(Bucket)有两个理由:

    1、获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用Map端连接(Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大减少JOIN的数据量。

    2、使取样(samping)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。










评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

R_记忆犹新

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值