自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【原创】hive/mysq 字典表多字段替换事实表多字段

数据详情: 事实表:其中多个字段是字典code。 字典表:两列,字典code、字典value。 需求: 现在将事实表的字典code转换成字典value。 案例数据准备: CREATE TABLE test_value ( id int, k1 varchar(20) DEFAUL...

2019-12-19 11:56:05

阅读数 32

评论数 0

原创 【Kimball维度建模】+【阿里巴巴中台—OneData实施】

一、Kimball维度建模 1.前生今世 维度建模出自Ralph Kimall的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》(《数据仓库工具箱》)一书,是十分流行的数仓建模理论。 维度建模从根本上来讲...

2019-11-25 14:32:20

阅读数 99

评论数 0

原创 【阿里巴巴中台—模型设计】模型分层和原则

一、模型分层 维度建模将数据分为三层:操作数据层(ODS),公共纬度模型层(CDM),应用数据层(ADS),其中,CDM又分为明细数据层(DWD)和汇总数据层(DWS)。 操作数据层(ODS):把操作系统数据几乎无处理的存放到数据仓库系统中。 公共纬度模型层(CDM):又细分为DWD和DWS,...

2019-11-22 15:22:13

阅读数 54

评论数 0

原创 【阿里巴巴中台—理论篇】为什么要建模?

要想做一个比较好的全域模型架构,第一点,你要明白为什么要进行建模? 随着进入大数据时代,数据来源丰富,数据量也飞速增长。大数据时代之前的储存架构明显开始脱力,数据消费也面临完整性、准确性和及时性的挑战。类比,人类在农业革命之前,依靠大脑去储存植物、动物和地理相关等信息。但是在农业革命之后,帝国昌...

2019-11-22 14:49:44

阅读数 46

评论数 0

原创 如何取每个分组中的前几项输出

题目要求,一张表,两个字段,分别是城市,关键字,查找出每个城市关键词的前五。分析:    1.首先要求的每个维度是城市+关键字 -> 根据城市和关键字分组求出数量    2.要找到前五输出,想到ROW_NUMBER() 开窗函数实现如下:select city,keyss,ROW_N...

2018-05-17 17:38:56

阅读数 129

评论数 0

原创 Hadoop集群如何动态的增删节点

环境:    集群环境是CentOS6;Hadoop版本为2.7.3一、增加节点    1.配置主节点和新增节点的免密登录(ssh信任)    2.将新的节点的ip(如果在主节点的/etc/hosts中配置了名字也可以用名字替代)加入到Hadoop配置文件中slave文件中    3.将主节点的H...

2018-05-16 17:31:25

阅读数 294

评论数 0

原创 灯泡问题,题目见下文

问题:给1-100号灯泡,所有的灯泡都是灭的,按一次会变亮或者变暗。让1-100个人来按,规则如下:    第一个人:从1按到100    第二个人:隔一个按一次(2 4 6 8 ...)    第三个人:隔两个按一次(3 6 9 11 ...)    ......问最后那几个灯是亮的解析:   ...

2018-05-11 07:31:03

阅读数 738

评论数 0

原创 求解玻璃球的最大摔碎高度

今天,一哥们带回来一道题,很有意思。题目大概是这样: 给你两个玻璃球,在最少实验次数,求出它的最大摔碎的高度,给出的摔碎的高度是1-100层楼之间,不考虑其他因素的影响。 首先,来分析一下这个问题:两次机会,最少次数,1-100层高度。最先想到的时折半的方法求解,是吧?可是,限制条件是两次机会;...

2018-05-09 11:30:09

阅读数 1047

评论数 0

原创 浅析Hive的四种排序方式

一、order by  order by 是要对输出的结果进行全局排序,这就意味着只有一个reducer才能实现(多个reducer无法保证全局有序), 但是当数据量过大的时候,效率就很低。如果在严格模式下(hive.mapred.mode=strict),则必须配合limit使用。 二、sort...

2018-05-09 09:16:59

阅读数 674

评论数 0

原创 浅析Hive的group by和count(distinct)

    首先,Hive的group by和count(distinct)都是去除重复的数据,某种程度上来说,两者产生的结果是一样的。    实例代码:select a,count(distinct b) from t group by aselect tt.a,count(b) from (sel...

2018-05-08 22:29:10

阅读数 7437

评论数 4

提示
确定要删除当前文章?
取消 删除