数字化时代,业务的实时处理需求越来越迫切,实时预警、实时风控、实时推荐等,Flink作为新一代流批统一的计算引擎,具有独特的天然流式计算特性和更为先进的架构设计的特点,它可以从不同的第三方存储引擎中读取数据,进行处理,然后再写出到另外的存储引擎中。
GES拥抱变化,开发了与Flink的对接工具GES-Flink-Connector。GES-Flink-Connector是一款自定义的离线/实时数据同步Flink连接器(connector),用于外部数据源与GES图数据库的数据同步。Connector的作用就相当于一个连接器,连接 Flink 计算引擎跟外界存储系统。GES-Flink-Connector具备流批统一的能力,对于离线计算与流计算的数据都可以写入GES图数据库中。利用Flink连接器机制,只要实现了数据源的Source Connector读取数据,就可以通过GES-Flink-Connector将数据进行自定义转换并导入到GES图数据库中。
GES-Flink-Connector的架构图如下所示:
功能介绍
GES-Flink-Connector具备如下能力:
- 流批统一,支持流数据与批数据
- 数据导入支持三种提交模式,批量提交、间隔提交、混合提交
- 利用Flink提供的Checkpoint机制,具备一定的容错能力
- 具备导入失败处理能力,批导入失败转单条导入,单条导入失败转存储
- 具备脏数据发现能力,验证属性数量是否符合要求,验证label是否存在
- 具备脏数据和错误数据存储能力,可将数据存储到LOCAL、OBS、HDFS
- 具备错误数据限制能力,当错误率达到一定上限时,停止任务
使用案例介绍
将离线数据导入GES
以向GES中导入JDBC离线数据为例,操作步骤如下:
- 将GES-Flink-C