数据仓库
gongpulin
这个作者很懒,什么都没留下…
展开
-
hive窗口函数总结
一:前言根据官网的介绍,hive推出的窗口函数功能是对hive sql的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。二:理解下什么是WINDOW子句(灵活控制窗口的子集)PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:起点(一般结合PRECEDING,FOLLO...转载 2020-03-25 11:59:34 · 1496 阅读 · 0 评论 -
hive优化总结
开发优化:1、分区、列剪裁。 在查询的过程中减少不必要的分区,只读取查询中所需要用到的列,而忽略其它列2、谓词下推。 SQL语句中where谓词逻辑提前执行,减少下游处理数据量select a,b from table_a join(select a,b from table_b where log_date='20200323') table_c...原创 2020-03-23 22:49:48 · 185 阅读 · 0 评论 -
大数据环境下该如何优雅地设计数据分层
最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现转载 2017-07-02 23:07:59 · 394 阅读 · 0 评论 -
数据仓库的架构与设计
https://blog.csdn.net/trigl/article/details/68944434转载 2018-11-14 20:31:12 · 583 阅读 · 0 评论