简介
数据集成模块是在各个存储单元之间执行数据交换的通道,具备分布式底层架构,稳定高效、弹性伸缩的特点,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了在DTinsightBatch进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightBatch,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。数据集成的作用如下图所示:
数据源类型
数据集成提供丰富的数据源支持,如下所示:
- 关系型数据库(MySQL / Oracle / SQLServer / PostgreSQL等)
- NoSQL(Redis / MongoDB / HBase / ElasticSearch等)
- 大数据存储(MaxCompute / HDFS / Hive等)
- 文本存储(FTP)
注1:Redis不支持抽取
注2:Redis、MongoDB、ElasticSearch不支持向导
数据源管理
数据源管理是对外部存储单元访问参数的管理,数据集成模块需要与数据开发配合起来才能发挥作用,实际是由定时任务来执行数据传输的。
在项目上方的数据集成菜单,进入数据数据源管理页面,可看到目前已经集成的数据源列表,包括数据源名称、类型、连接信息、描述、最近修改人、最近修改时间、状态等信息,同时可执行编辑、删除等操作。
在数据源列表右上角的新增数据源,选择不同的数据源类型,需要填写不同的配置信息。
具体配置信息: