数据仓库
空城gang
大起大落谁都有,拍拍灰尘继续走!
人生,一半清醒,一半释然。
展开
-
grouping__id grouping sets在hive和spark中执行的区别
一、hive中的grouping__id的数字规则(取反有则为1无则为0)如select a,b,c,grouping__id from test group by a,b,cgrouping sets ((ab),(ac),(abc))规则:根据group by 字段 ,从低到高,group sets中出现的字段是1没出现是0如 (a,b)对应 011 (a,c)对应 101二、spark中的grouping__id()的数字规则(有则为0无则为1)如select a,b,c,gr..原创 2021-04-18 21:41:24 · 1863 阅读 · 1 评论 -
HIve中表的复制、增加列、修改列名、修改表名、修改注释等
一、查看表路径desc formatted 表名eg:desc formatted 表A;二、hive复制表结构CREATE TABLE new_table LIKE old_table;eg:CREATE external TABLE 表ALIKE 表B 'hdfs://../表A';三、修改表,插入列alter table tb1 add columns(列名string COMMENT '注释') cascade;四、修改表的汉字名称例如将 社交粉丝订单修改...原创 2021-04-18 21:34:52 · 960 阅读 · 0 评论 -
数据仓库 缓慢变化维
缓慢变化维处理方法:什么是缓慢变化维:缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。比如学生的班级,年级等表中的处理方法:1.重写覆盖:初始的维度表学号 姓名 年级 20190101 王五 一...原创 2019-08-19 10:36:43 · 676 阅读 · 0 评论 -
数据库第一范式、第二范式、第三范式
第一范式(对列要求):对属性的原子性;要求属性具有原子性,即:列不可以再拆分(一个字段只存储一项信息)eg:初二年级3班学生小明 姓名 学号 年级 班级 错误存储 小明 001 初二年级3班 正确存储 小明 001 初二 3班 第二范式 (对行要求):记录的唯一性,要求记录有唯一标识,即不存...原创 2019-08-28 10:38:16 · 261 阅读 · 0 评论 -
HIVE中笛卡尔积 (用A JOIN B on true 可以实现)
with aa as(select 1 as num , 2 as nunion allselect 3 as num , 4 as n),bb as(select 4 as num , 2 as nunion allselect 5 as num , 4 as n)select *from aajoin bbon true原创 2019-08-29 16:41:46 · 3506 阅读 · 0 评论 -
HIVE 中将下一条记录的创建时间作为上一条记录的结束时间
HIVE 中将下一条记录的创建时间作为上一条记录的结束时间selectteacher_uid,stu_pid,created_at,coalesce(lead(log.created_at,1) over(partition by teacher_uid,stu_pid order by log.created_at),'9999-12-31 99:99:99') as e...原创 2019-09-03 18:59:52 · 1028 阅读 · 0 评论