Hive模式设计

最新推荐文章于 2023-04-19 21:28:04 发布

小顽童王

最新推荐文章于 2023-04-19 21:28:04 发布

阅读量1k

点赞数

分类专栏： hive 文章标签： hadoop mapreduce hdfs hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_ying_198/article/details/51202941

版权

hive 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

按天划分的表：使用分区

分区：

一个理想的分区方案不应该导致产生太多的分区和文件夹目录，并且每个目录下的文件应该足够大，应该是文件系统中块大小的若干倍。

如何保证：

按时间范围进行分区的一个好的策略就是按照不同的时间粒度来确定合适大小的数据积累量，而且安装这个时间粒度。

另一个解决方案是使用两个级别的分区并且使用不同的维度。

最后如果用户找不到好的分区方案，可以使用"分桶表数据存储"。

同一份数据的多重处理：提高效率

from history

insert overwrite table sales select * where action="purchased"

insert overwrite table credits select * where action="returned" ;

分桶表数据存储：

分区提供一个隔离数据和优化查询的便利方式，但是并不是所有的数据集都可形成合理的分区。

分桶是将数据集分解成更容易管理的若干部分的另一个技术。

create table weblog(

userId int，

url string ,

sourceIp string

)

partitioned by (dt string)

clustered by (userId) into 96 buckets ;

下面介绍如何在insert...table语句时正确的填充表。

首先我们需要设置一个属性来强制Hive为目标表的分桶初始化过程设置一个正确的reducer个数。然后我们在执行一个查询来填充分区。

set hive.enforce.bucketing = true ;

from raw_logs

insert overwrite table weblog

partition (dt="2009-02-25")

select userId,url,sourceIp where dt="2009-02-25" ;

注：如果我们没有使用hive.enforce.bucketing属性，那么我们就需要自己设置和分桶个数相匹配的reducer的个数。例如，使用set mapred.reduce.task = 96 ,然后在insert语句中，需要再select语句后增加cluster by语句。

分桶好处：

因为桶的数量是固定的，所以没有数据波动；

桶很适合抽样；

分桶有利于执行高效的map-side join。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive模式设计

按天划分的表：使用分区分区：一个理想的分区方案不应该导致产生太多的分区和文件夹目录，并且每个目录下的文件应该足够大，应该是文件系统中块大小的若干倍。如何保证：按时间范围进行分区的一个好的策略就是按照不同的时间粒度来确定合适大小的数据积累量，而且安装这个时间粒度。另一个解决方案是使用两个级别的分区并且使用不同的维度。最后如果用户找不到好的分区方案，可以使用"分桶表数据
复制链接

扫一扫

专栏目录

博客等级

码龄16年

43
原创

1
点赞

8
收藏

3
粉丝

关注

私信

热门文章

分类专栏

hadoop 7篇
spark 3篇
storm 1篇
hbase 9篇
hive 17篇
flume 8篇
kafka 6篇
hue 1篇
linux
scala 1篇

最新评论

HCatalog
ailyfm: sparksql通过接口读取hive表，这个接口用hcatlog实现，请问如何将hcatlog与sparksql中的dataframe进行转换。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。