【FlinkX】数据同步工具的研究与实践

最新推荐文章于 2025-05-08 12:39:15 发布

pierre94

最新推荐文章于 2025-05-08 12:39:15 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： flinkx flink datax

本文为博主原创文章，未经博主允许不得转载。更多精彩，微信公众号关注: 大数据与实时计算!

本文链接：https://blog.csdn.net/u013128262/article/details/103510510

文章目录

一、Flink简介与数据同步需求
二、Flinkx框架实现与原理
三、开发一个Flinkx插件
四、Flinkx on yarn部署
- 1、环境依赖
- 2、部署细则
五、其他
- 1、补充
- 2、参考

一、Flink简介与数据同步需求

1、Flink简介

Flink是新型的计算框架，具有分布式、低延迟、高吞吐和高可靠的特性。其支持多种部署方式:local(单机)、standalone模式，也可以基于yarn，mesos或者k8s做资源调度。Flink提供了比较高级的API，我们能比较方便地扩展现有的API来满足一些特殊需求，此外Flink提供了完整的状态管理体系（checkpoint），可以基于这个机制实现断点续传。

2、数据同步需求

这里主要说明的是离线数据同步。实时数据同步相对而言没有周期性的资源调度问题，原生的Flink框架结合其丰富的connector即可满足大部分需求。

1)支持多种部署模式

开发测试时可以单机部署，在生产环境支持分布式部署。

2)分布式资源调度能力

如果可以基于yarn，mesos或者k8s等做资源调度，可以极大提高资源利用率、提升运营效率！

3)支持断点续传

在大数据量的传输场景下，当网络出现抖动\DB抖动等情况时任务可能会失败。那这个时候重跑任务耗时耗力(血与泪)。此时就需要能从失败的点继续跑，也就是断点续传。

3、常见异构数据同步工具对比

Flinkx是袋鼠云开源的一款基于Flink的分布式数据同步工具(框架)。

工具	flinkx	datax	logkit	sqoop
架构	分布式	单机(分布式版本未开源)	单机	分布式
同步速度控制	支持	支持	支持	不支持
脏数据管理	支持	支持	不支持	不支持
插件化	支持	支持	支持	不支持
断点续传	支持	不支持	不支持	不支持
配置方式	json	json	web界面	脚本