自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 kafka topic

回顾kafka极简入门(二)--安装topic是kafka的生产者和消费者最小交互的单位,我们先从topic入手,创建第一个topic. 进去kafka的bin目录我们发现有个kafka-topics.sh脚本 1.创建topic官方推荐如果kafka版本大于等于2.2使用--bootstrap-server替代--zookeeper(2.2以上也兼容--zookeeper)命令如下kafka-topics.sh --create --bootstrap-serv...

2021-03-25 14:20:12 1050

原创 自然键 or 代理键

概念解释键:键是唯一标识一个实体的一个或者多个数据属性。在物理数据库中,建可以由变的一个或者多个列组成,它们的值唯一标识关系表中的一行自然键:由现实时间中已经存在的数据组织成的键, 字段本身具有一定的含义;例如,身份证号、员工编号等代理键: 就是充当主键的字段本身不具有业务意义,只具有主键作用,比如自动增长的ID比如商品,在ETL过程中,对于商品维表的每一行,可以生成一个唯一的代理键与之对应; 商品本身的自然键可能是商品ID等。其实对于前台应用系统来说,商 ID是代理键:而对于数据仓库系统来说.

2021-03-23 20:00:06 413

原创 hive 宽表变竖表 长表变宽表

1.这是源数据以及需要转化的目标表.我们的方法是 , 用 GROUP BY按照year分组 , 并且依次提取1月,2月,3月,4月的 num,具体实现 1 2 3 4 5 6 selectyear, max(casewhenmonth=1thenmoneyelse0end)asM1, max(casewhenmonth=2thenmoneyelse0end)asM...

2021-03-01 23:21:47 1002 1

原创 hive的开窗函数举例(SUM、AVG、MIN、MAX)

数据准备: cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 cookie1,2015-04-14,2 cookie1,2015-04-15,4 cookie1,2015-04-16,4建表语句: create database if not exists myhive; use myhive; drop ta...

2021-03-01 23:17:09 745

原创 Hive数据仓库之全量表、增量表、快照表、切片表和拉链表

数据仓库中常见的一些表:全量表:记录每天的所有的最新状态的数据,增量表:记录每天的新增数据,增量数据是上次导出之后的新数据。快照表:按日分区,记录截止数据日期的全量数据切片表:切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据拉链表:记录每条信息的生命周期,当一条记录的生命周期结束,就会重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,则在生效结束日期中填入一个极大值(如9999-99-99),一般

2021-03-01 00:23:52 2411

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除