数据仓库&OLAP
文章平均质量分 93
IT路上的苦行僧
这个作者很懒,什么都没留下…
展开
-
Hive 调优
目录 改写SQL实现 使用grouping sets代替union 分解count(distinct) 使用SQL-Hint 语法 MAPJOIN Hint STREAMTABLE Hive配置开关 并行执行 向量开关 参考文章 改写SQL实现 使用grouping sets代替union -- 优化前 SELECT s_age,s_sex,count(1) FROM...原创 2020-01-23 16:05:53 · 462 阅读 · 0 评论 -
HIVE执行计划(未完)
目录 语法 基本信息 扩展信息 依赖信息 授权信息 参考文章 语法 EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query AUTHORIZATION从 HIVE 0.14.0 通过HIVE-5961开始支持,VECTORIZATION从 Hive 2.3....原创 2020-01-22 18:40:37 · 576 阅读 · 0 评论 -
Hive 面试题总结
目录 排序 分组类 JOIN类 窗口函数类 参考文章 排序类 1、有1亿个用户,存储在表users中,包含用户uid、用户年纪age、用户消费总金额total,其中以uid唯一标识1个用户,按照用户年龄从大到小排序,如果年龄相同则以消费总金额从小到大排序。 这是1个全排序问题,首先预估总内存消耗大小,1亿[用户数]*(8B[uid]+4B[age]+8B[total])约等于2G,...原创 2020-01-21 15:38:24 · 1874 阅读 · 0 评论 -
Presto 常用函数
Presto 简要介绍 presto是一个分布式的sql交互式查询引擎,基于内存的,可以达到hive查询效率的5到10倍,支持多种数据源的秒级查询。另外除了基于内存之外,还有优化如下: 向量计算 动态编译执行计划 优化的ORC和Parquet Reader技术 常用时间函数 参考https://prestodb.io/docs/current/functions/datetime.htm...原创 2020-01-20 12:24:26 · 2083 阅读 · 0 评论 -
数据建模-未完
目录 什么叫数据建模? 为什么要数据建模? 数据建模有哪些方法? 什么叫数据建模? 模型是对物理世界的刻画,从而更好地向他人表示,达到信息传递的目的。数据模型即是由一组符号、文本组成的集合,对业务数据建立适当的模型,从而更好地刻画业务系统中相关概念及其之间的关系,达到有效交流、沟通的目的。 为什么要数据建模? 概念建模、逻辑建模、物理建模的关系? 关系 主题(维度)...原创 2020-01-19 22:03:33 · 287 阅读 · 0 评论 -
Kylin 参数优化经验
目录 优化前 OOM 执行时间过长 优化前 kylin执行构建如果因为OOM等原因运行失败后,调整配置参数,无需从头开始构建,kylin有个牛x的功能叫恢复执行,可以从失败的阶段开始重新执行,笔者之前不知道有这个功能,都是重头开始构建,执行到失败的步骤运行时间又很长,试错成本特别高。 OOM Build Cube with Spark阶段OOM 设置参数kylin.en...原创 2020-01-16 19:51:52 · 1277 阅读 · 0 评论