数据仓库建设三(维度建设的规范)

ods:数据保持与业务库与业务日志相同

数据存储格式与压缩方式的选择

形式格式压缩方式数据管理方式(hive)
业务库数据库orcsnappy管理表
业务日志kafkaorcsnappy管理表
logtextfilegz外部表

表名的设计,根据你们的业务要求,或者标准的方式

{业务库名}_{表名}_{同步周期}{同步方式:全量或者增量}

相关的性能与选择,参看(116条消息) 压缩格式gzip/snappy/lzo/bzip2 比较与总结_zzhongcy的博客-CSDN博客_snappy压缩比

压缩格式codec类算法扩展名多文件splitablenative工具hadoop自带
gzipGzipCodecdeflate.gzgzip
bzip2Bzip2Codecbzip2.bz2bzip2
lzoLzopCodeclzo.lzolzop
snappySnappyCodecsnappy.snappy

说明:

  • 压缩相关codec实现在org.apache.hadoop.io.compress包下面
  • gzip算法hadoop内置支持,使用时直接处理文本数据一样,使用方便,压缩比高,缺点就是不支持split。如果压缩后文件与块大小相当,可以考虑使用gzip压缩,比如:小时原始日志压缩成gzip文件,使用方便。
  • bzip2 支持split,压缩比高,支持多文件,缺点就是慢。
  • lzo 压缩/解压速度也比较快,合理的压缩率;支持split(需要建索引,文件修改后需要重新建索引),支持hadoop native库,需要自己安装;
  • snappy 压缩/解压速度也比较快,合理的压缩率,不支持split,支持hadoop native库,需要自己安装。可以用于map中间结果的压缩。

dwd:维度建模实事表与维度表(维度表的扩展不在这)

格式压缩方式数据管理方式(hive)
dwdorc管理表
dimorc管理表

dws:数据主题域

格式压缩方式数据管理方式(hive)
dwsorc管理表

ads:业务报表(数据存储到易于业务查看的地方,如mysql,hbase,es,ck等)

各层命名方式

层 命名方式
odsods_{业务库}_{表名}_{同步周期}{同步方式}

dwd

dim

dwd_{业务}_{表的类型}_{同步周期}{同步方式}

dim_{维度}_{表的类型}_{同步周期}{全量}

dwsdws_{维度}_{业务}_{表的类型}_{同步周期}{同步方式}
ads这个可以根据业务自定义就行

表的类型

表的类型符号描述
事务型tf每一个操作记录都要记录
周期型psf统计周期内的最终状态
累积型asf统计周期内状态的变化

同步周期

同步周期符号
min
h
d
w
m
y
实时sync

同步方式

同步方式符号
全量a
增量i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值