数仓分层设计及数据同步问题,,220728,,,,

本文讨论了Hadoop容器的常见问题,全量和增量数据同步策略,包括快照表、全量表、增量表和拉链表的使用。提到了维度表的设计,包括维度退化及其优缺点,并介绍了Hive的表与HDFS的映射关系以及自动化建表依赖于Sqoop。同时,文章还提及了Linux重定向和Shell脚本在数据处理中的应用。
摘要由CSDN通过智能技术生成

制作技术架构图????????????

Hadoop容器:最容易遇到进程没有启动成功的问题

50070

8088

 

 

 

 

 全量同步、全量覆盖、新增同步、新增及更新同步

快照表、全量表、增量表、拉链表

 

 >           >>

 覆盖和追加

重定向:重新定义一个新的方向

>:输出重定向

< :输入重定向

 

ephemeral:短暂的;

 

 文件本身算作一个副本,,

 combiner,spark  map预聚合,

 

 

join,reduce 中shuffle join,

 Support

 约束

主键、唯一、非空、外键、默认值

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值