隐藏
部分不对外展示
数仓之路
N年大数据开发经验, 数仓老六,欢迎交流
展开
-
数据仓库之维表-缓慢变化维
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化 。与数据增长较为快速的事实表相比,维度变化相对缓慢。 在一些情况下,保留历史数据没有什么分析价值;而在另一些情况下,保留历史数据将会起到至关重要的作用。在 Kimball 的理论中, 有三种处理缓慢变化维的方式,下面通过简单的实例进行说明。 第一种处理方式 :重写维度值。采用此种方式,不保留历史数据,始终取...原创 2020-10-27 20:40:48 · 1655 阅读 · 1 评论 -
大数据面试之手撕SQL题一
大数据面试最常见sql算法题之一hive sql实现查询连续n天登陆的用户原创 2020-11-03 11:22:49 · 743 阅读 · 0 评论 -
Hive SQL优化一之DISTINCT
我们利用Hive对嵌套语句的支持,将原来一个MapReduce作业转换为两个作业,在第一阶段选出全部的非重复id,在第二阶段再对这些已消重的id进行计数。这样在第一阶段我们可以通过增大Reduce的并发数,并发处理Map输出。在第二阶段,由于id已经消重,因此COUNT(*)操作在Map阶段不需要输出原id数据,只输出一个合并后的计数即可。这样即使第二阶段Hive强制指定一个Reduce Task,极少量的Map输出数据也不会使单一的Reduce Task成为瓶颈。改进后的SQL语句如下:SELE...原创 2020-08-20 20:35:18 · 711 阅读 · 0 评论 -
Hive 窗口函数及其搭配分析函数
hive 窗口函数over(partition by cookieid order by createtime)原创 2020-08-24 20:21:44 · 231 阅读 · 0 评论 -
Hive常用优化
1、抓取策略2、explainextended显示执行计划3、并行执行(不能有依赖关系)sethive.exec.parallel=true;开启并行,开启后默认8个hive.exec.parallel.thread.number设置并行个数4、严格模式(限制查询条件)sethive.mapred.mode=strict5、排序优化orderby全排序只有一个reducesortby单个reduce排序distributeby分区排序,...原创 2020-07-22 21:35:16 · 198 阅读 · 0 评论 -
Hive SQL骚断腿操作之一
grouping sets原创 2020-08-11 21:52:05 · 188 阅读 · 0 评论 -
Hive最全入门
目录前言一、Hive简介二、Hive架构三、基本数据类型四、DDL语法五、DML语法六、HQL语法七、JOIN八、排序九、自定义函数十、MapReduce执行过程十一、性能优化十二、后记参考资料前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同。Hive是对数据仓库进行管理和分析...转载 2020-07-14 17:24:51 · 800 阅读 · 0 评论