二、阿里数据仓库的同步方式
- 数据仓库的特性之一是集成,将不同的数据来源、不同形式的数据整合在一起,所以从不同业务系统将各类数据源同步到数据仓库是一切的开始。
- 阿里数据仓库的数据同步的特点:
- 数据来源的多样性。(除了结构化的数据,还有大量非结构化数据,特别是日志数据,这类数据通常直接以文本形式记录在文件系统中,对于数据的分析、统计、挖掘等各类数据应用有极大的价值。)
- 数据量巨大。(目前大型互联网企业的大数据系统每条同步的数据量达到 PB 级别(1 PB = 1024 TB),而阿里的大数据系统 MaxCompute 的数据存储达到 EB 级别(1 EB = 1024 PB),每天需要同步的数据量达到 PB 级)
- 针对不同的数据源类型和数据应用的时效性要求,采用不同的同步方式。
1、批量数据同步
- 对于离线类型的数据仓库应用,需要将不同的数据源批量同步到数据仓库,以及将经过数据仓库处理的结果数据定时同步到业务系统。
- 数据仓库系统是集成了各类数据源的地方,数据类型是统一的。
- 要实现各类数据库系统与数据仓库系统之间的批量双向数据同步,需要先将数据转换成中间状态,统一数据格式。
- 由于各数据库系统的数据都是结构化的,均支持标准的 SQL 语言查询,所以所有的数据类型都可以转换成字符串类型。因此,通过将各类数据库系统的数据类型统一转换为字符串类型的方式,实现数据格式的统一。
2、实时数据同步
- 天猫“双 11” 的数据大屏为例:对所产生的交易数据需要实时汇总