TIS:基于批量数据处理(DataX)和流式数据处理(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施各端(MySQL、PostgreSQL、Oracle、Elasticsearch、ClickHouse、Doris 等)之间数据同步的实施门槛。
一、功能特点
- 高效的数据同步
- 能够实时捕获数据源的变化,并将其快速同步到目标系统中。无论是批量数据的周期性同步,还是流式数据的即时传输,TIS 都能确保数据的准确性和及时性。
- 支持多种数据源和目标系统,包括关系型数据库、NoSQL 数据库、数据仓库、大数据平台等,满足不同场景下的数据同步需求。
- 批流一体处理
- 打破了传统批处理和流处理的界限,实现了两种处理方式的统一。对于大规模数据的处理,可以同时利用批处理的高效性和流处理的实时性,提高数据处理的整体性能。
- 提供统一的编程模型和开发工具,使开发者能够使用相同的代码和技术栈进行批处理和流处理开发,降低开发成本和复杂度。
- 数据一致性保障
- 在数据同步过程中,确保数据的一致性是至关重要的。TIS 采用了先进的一致性算法和事务处理机制,保证数据在同步过程中的完整性和准确性。
- 支持数据的回溯和重放,当出现数据错误或异常情况时,可以快速恢复到之前的状态,进行数据修复和重新同步。
- 可扩展性和高可用性
- 随着数据量的不断增长和业务需求的变化,数据同步系统需要具备良好的可扩展性和高可用性。TIS 采用分布式架构设计,可以轻松扩展到大规模数据处理场景,并保证系统的高可用性和可靠性。
- 支持动态扩展和负载均衡,能够自动调整资源分配,以应对不同的数据处理压力。
二、组成部分
- 数据源连接组件
- 负责与各种不同类型的数据源建立连接,包括关系型数据库(如 MySQL、Oracle)、非关系型数据库(如 MongoDB、Cassandra)、日志文件、消息队列(如 Kafka、RabbitMQ)等。能够适配不同数据源的接口和协议,确保数据的稳定获取。
- 支持多种连接方式,如 JDBC、ODBC、API 调用等,以满足不同数据源的接入需求。
- 数据抽取器
- 从数据源中抽取数据,可以根据不同的数据源和数据格式采用不同的抽取策略。例如,对于数据库可以使用 SQL 查询语句进行数据抽取;对于日志文件可以通过文件读取和解析的方式获取数据。
- 具备数据过滤和转换功能,能够在抽取数据的同时对数据进行初步的筛选和格式转换,以满足后续处理的要求。
- 流处理引擎
- 负责实时处理流式数据,具有低延迟、高吞吐