《Hadoop构建数据仓库实践》摘录

数据仓库模型

1 模型设计思考流程
在这里插入图片描述
2 Hive 使用时注意的情况
Hive 创建表时文件格式的选择
在这里插入图片描述
Hive事务的局限性
在这里插入图片描述

数据抽取

4种CDC变化数据拉取方式
在这里插入图片描述

时间戳:添加更新时间等字段

触发器:当执行insert,update等sql时触发等

快照:
	比如一天保存一份快照,第二天新快照和前一天快照根据主键全外连接。
	并根据主键比较的结果增加一个标志字段,I表示新增,U表示更新,D代表删除,N代表没有变化。外层查询过滤掉没有变化的记录。
	但是性能开销大,存储空间开销大

日志
	最复杂的和最没有侵入性的CDC方法是基于日志的方式
	如使用MySQL数据库,只要在数据库服务器中启用二进制日志(设置log_bin服务器系统变量)。
	之后就可以实时从数据库日志中读取到所有数据库写操作,并使用这些操作来更新数据仓库中的数据。
	这种方式需要把二进制日志转为可以理解的格式,然后再把里面的操作按照顺序读取出来

sqoop覆盖导入和增量导入
增量导入
在这里插入图片描述
在这里插入图片描述

增量方式,根据entry_date字段,每次之后导入该字段last-value之后的数据

小结
在这里插入图片描述

数据转换和装载

渐变维-处理维度历史变换问题
在这里插入图片描述

1 可以采用sqoop通过last-value增量形式每天全量将mysql数据覆盖写入hive mysql过渡表
2 执行初始装载sql语句,通过hive mysql真正数据表cross join过度表,增量写入hive mysql真正数据表中,
hive本身的id自增可以通过row_number/UDFRowSequence实现

定期装载可以根据时间戳等4种CDC方式来部分拉取数据

书中例子的设计

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我爱肉肉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值