在大数据场景下,数据集成主要是解决哪些核心问题,我将其分为以下四个场景:
第一个场景就是搬站上云。搬站上云主要用来对接业务数据库,完成数仓初始化,比如用户需要把自己的云下数据库快速安全地迁移到云上存储并做进一步的业务分析,如线下MySQL、Oracle到云上MaxCompute或者是Hadoop中Hive上,这既包含了一次性全量数据迁移,还包含持续增量数据迁移。
第二个场景是构建实时数仓,做流式的数据汇聚。主要包含应用产生的日志数据,应用产生的消息数据,和应用对接数据库产生的日志数据(数据库的Binlog或者归档日志)
第三个场景是平台融和,完成云上各个产品之间的数据同步和交换。既包含跨云平台之间的数据同步,比如从AWS、GCP到阿里云;还包含云平台内部之间的数据交换,比如阿里云内部RDS、MaxCompute、OSS、PolarDB、AnalyticDB、Datahub等之间的数据同步。
第四个场景是容灾备份。当数据分为冷热数据时,需要把冷数据放到归档数据中,极大节约成本。在数仓场景中,也可以把云上计算好的一些结果数据回流到数据库中,服务于在线数据应用。