数据迁移方案对比

最新推荐文章于 2024-07-29 15:07:17 发布

No.do I

最新推荐文章于 2024-07-29 15:07:17 发布

阅读量538

点赞数

分类专栏：技术对比文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/No_doI/article/details/114872402

版权

技术对比专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据迁移方案对比

方案列表

迁移方案	实时性	优点	缺点	同步方式	常用场景	使用方式	使用难度
Flume	准实时	支持分布式集群部署 2、支持场景多样 3、数据源形式多样 4、支持自定义开发，易扩展	配置繁琐	增量	1.文件/文件夹采集 2.端口采集等	1、编写配置文件，启动程序即可。官方文档：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html	一般
Kettle	离线	1、支持数据源种类多 2、独立部署 3、可进行数据清洗转换 4、数据流向清晰	单机执行，同步效率低	全量增量（定时任务+脚本	etl场景	界面化操作，编写指定的数据源跟写入目的地即可。官网：http://www.kettle.net.cn/	简单
DataX	离线	1、数据抽取性能高 2、独立部署 3、支持数据源种类多 4、开发快速	增量同步实现麻烦	全量增量（定时任务+脚本）	数据库	1、编写配置文件，启动程序即可。 2、增量同步需编写自定义脚本或程序。官方文档：https://github.com/alibaba/DataX	一般
Canal	实时	1、mysql数据库实时数据同步，对数据库无访问压力	只支持msyql数据库，数据落地方式较少	增量	对mysql数据更新进行实时同步	1、对指定同步的mysql需更改配置文件为指定要求； 2、修改canal程序的相应配置文件。文档地址：https://github.com/alibaba/canal	难
Sqoop	离线	1、数据吞吐量大 2、部署需依赖大数据集群 3、支持数据源较为单一	操作复杂	全量增量（定时任务+脚本）	与大数据集群直接通信的关系数据库间的大批量数据传输	编写抽取的执行命令脚本即可，参数较多，注意各个参数含义官方文档：http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html	一般
Debezium	实时	1、数据实时同步，对数据库无压力 2、支持数据源较多	一般结合kafka使用，不能直接使数据到目标库	增量	数据同步至kafka，供其他程序消费	编写配置文件即可 https://debezium.io/documentation/reference/1.4/tutorial.html	一般

擅长场景

flume：

1、实时快速采集数据，且没有业务逻辑耦合的场景，常用于日志文本类采集，或端口类数据采集；

2、支持将数据写入kafka、hdfs、hbase、hive、es等大数据场景，通常应用于大数据场景，扩展方便，可集群和分布式部署；

3、通常与kafka搭配使用；

4、官方配置示例详细，可实现快速的数据采集程序部署。无需开发代码。

Kettle：

1、界面操作，开发快速，操作简单，易学习。

2、适用于场景多变，且要求快速实现的项目。

3、较适合培训运维人员操作，对数据库到库任务可快速实现

DataX：

1、配置文件编写简单，适用于数据库/文本类的数据抽取；

2、抽取效率较高，但会受单机性能影响；

3、学习简单，适合快速开发，只需要修改配置文件，运行简单；

4、对增量抽取需自己编写脚本或程序实现。

Canal：

1、适用于项目级开发，canal不影响数据库的业务使用，不会带来数据库查询压力；

2、适用于对数据同步实时性要求高的项目，通常需要开发额外的数据解析逻辑。

Sqoop：

1、只适合用于大数据场景的批量导数，使用场景较为局限。

Debezium :

1、适用于对实时性要求较高项目；

2、关注每条数据的变化，对数据库没有访问压力；

使用建议：

1、对于需要实时采集的项目，可优先考虑flume进行采集。支持采集方式较多，对数据落地的方案也多，可满足大多数实时采集数据的应用场景，对不满足的情况也支持自定义开发source和sink。

2、对于大批量数据的导入，可优先考虑dataX进行数据抽取，抽数效率较高，配置文件简单，可较快实现项目项目要求。配置文件+执行脚本+定时任务，可满足大多数数据抽取的应用场景。

3、对于数据实时性要求交高的，不影响业务数据库的，建议使用Debezium 同步数据，数据实时同步到kafka，可供其他有需求的地方共同使用。另可结合flink使用，达到数据实时处理计算。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。