数仓:数据同步之道、数据接入技术栈、ETL加载策略

二、阿里数据仓库的同步方式

  •  数据仓库的特性之一是集成,将不同的数据来源、不同形式的数据整合在一起,所以从不同业务系统将各类数据源同步到数据仓库是一切的开始。
  • 阿里数据仓库的数据同步的特点:
  1. 数据来源的多样性。(除了结构化的数据,还有大量非结构化数据,特别是日志数据,这类数据通常直接以文本形式记录在文件系统中,对于数据的分析、统计、挖掘等各类数据应用有极大的价值。)
  2. 数据量巨大。(目前大型互联网企业的大数据系统每条同步的数据量达到 PB 级别(1 PB = 1024 TB),而阿里的大数据系统 MaxCompute 的数据存储达到 EB 级别(1 EB = 1024 PB),每天需要同步的数据量达到 PB 级)
  • 针对不同的数据源类型和数据应用的时效性要求,采用不同的同步方式。

1、批量数据同步

  • 对于离线类型的数据仓库应用,需要将不同的数据源批量同步到数据仓库,以及将经过数据仓库处理的结果数据定时同步到业务系统。
  • 数据仓库系统是集成了各类数据源的地方,数据类型是统一的。
  • 要实现各类数据库系统与数据仓库系统之间的批量双向数据同步,需要先将数据转换成中间状态,统一数据格式。
  • 由于各数据库系统的数据都是结构化的,均支持标准的 SQL 语言查询,所以所有的数据类型都可以转换成字符串类型。因此,通过将各类数据库系统的数据类型统一转换为字符串类型的方式,实现数据格式的统一。

2、实时数据同步

  • 天猫“双 11” 的数据大屏为例:对所产生的交易数据需要实时汇总࿰
  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

四月天03

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值