![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 68
森谷蘑
在数据分析路上摸索前进
展开
-
数仓 —— 数据仓库模型层级设计
数据 —— 数据模型层级设计各团队对数据模型都有不同的分层方式,比如腾讯团队:ODS(操作数据层),DWD(主题明细层),DWS(主题聚合层),ADS(应用数据层),DIM(维度数据层)字节跳动:ODS(操作数据层),DWD(主题明细层),DW(主题聚合层),DM(宽表层),ADS(应用层)阿里巴巴:ODS(操作数据层),DWD(主题明细层),DWS(主题聚合层),ADS(应用层)操作数据层(ODS):最接近数据源的一层,主要负责以下工作:数据清洗:过滤日志或者上游中的脏数据结构化:将数据中的原创 2021-10-19 20:23:50 · 1063 阅读 · 0 评论 -
Hive——多行转一行及一行转多行
Hive——一行转多行及多行转一行链接1: link链接2: link原创 2021-05-28 12:15:06 · 7817 阅读 · 0 评论 -
Hive——数据倾斜问题
( 一 )数据倾斜是什么由于某个字段数据值或者函数作用后的数据值分布不均匀,导致在reduce阶段,某个rudece节点的数据量太大,计算时间非常久;而其他reudce数据量少计算快,计算完需要等所有节点计算完,任务才能完成。( 二 )数据倾斜的表现看执行日志,rudece的进度一直在99%。( 三 )数据倾斜的优化数据倾斜一般出现在join部分和group by部分;join主要是左右表某个表的关联key分布不均匀或者某些key的量特别大;对于join时候数据倾斜,我一般会尝试以下几种优化方法转载 2021-03-18 14:20:52 · 405 阅读 · 0 评论