![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
Crazy丶魂仔_
There is much opportunity for anyone willing to dedicate himself to his labors.
付出努力的人才有机会出人头地。
展开
-
Hive的优化
首先是表的优化: 1.当数据量比较大的时候常用的手段就是拆分表,大表拆小表,分区表,临时表,外部表。 2.尽量小表join大表,要把数据量小的表放在join的左边,先进行缓存,这样减少表join的时候内存的消耗量。 好的模型设计事半功倍。 减少job个数。 自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skwindata=true; 对小文件进行合并,是行至游戏...原创 2019-03-18 23:57:11 · 165 阅读 · 0 评论 -
数据仓库的设计
左侧是我们常用的数据仓库分层,右侧是阿里巴巴使用的数据仓库分层。 dw:数据集市层,面向主题的,放的用户宽表。 将宽表抽取基本信息 dim放维度表 ...原创 2019-04-10 09:40:55 · 368 阅读 · 1 评论