根据维基百科的定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
根据定义,数据湖的核心能力包含:数据集成能力、数据存储能力、数据搜索能力、数据治理能力、数据质量管控、数据安全审计、自助数据使用。
本文讨论内容,是基于GBase8a MPP为核心存储的数据湖方案中,GBase RTSync在数据集成能力领域,对于数据库接入能力的支持。
那什么是RTSync呢,RTSync是南大通用数据技术股份有限公司开发的用于同步指定数据库到目标数据库的软件工具,是一款支持增量同步,全量同步及全量同步后转增量同步的数据同步产品。
RTSync数据同步工具可以从GBase8a、GBase8s、GBase8t、Oracle,Mysql,TDSql,SQLServer中挖掘,也可以从Kafka等中间件中获取数据。同时将挖掘和获取的数据,同步到目标端,包含GBase8a、GBase8s、GBase8t、Oracle,Mysql,TDSql,SQLServer数据库,也可以将数据推送到Kafka中。
RTSync数据同步工具,在增量数据同步的时候,是读取数据库CDC日志,并对日志进行挖掘,获取需要的增量数据。这种获取数据的方式,和传统通过JDBC方式获取数据比,好处是不会调用源端数据库的计算资源,对正在运行的业务数据库性能影响很少。因此,在数据湖方案中,对数据集成来说,提供了可靠,高效的支持。
RTSync数据同步工具,主要包含四大功能模块:数据捕获组件、消息队列组件、数据投递组件和管理组件。
由于RTSync数据同步工具,是基于GBase8a应用场景下诞生的,所以它对GBase8a MPP有着天然的亲和度。在数据同步目标端为GBase8a Mpp的时候,可以直接调用GBase8a MPP自带的8a Consumer消费组件,进行数据增量同步。在全量数据同步或全量转增量数据同步的时候,可以通过配置的方式,直接调用GBase8a的加载组件,实现了高效的数据导入方式。
总之,RTSync是一款高效的数据同步工具,在数据湖的应用中,能很好的承担起数据库集成这方面的工作,可以值得一试。