![](https://img-blog.csdnimg.cn/16206e54fd6643de9bfe3dc31c318c96.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
DataX
文章平均质量分 63
异构数据源离线同步工具
MelodyYN
实践
展开
-
DataX数据迁移问题记录:字段中存在\n导致数据混乱
datax的json配置文件改下就行了,在reader、writer层级加上代码替换字段中的\n。使用ORC格式可以解决,但是会导致mysql中的null值同步至HDFS会变成\N的问题。字段里面有代码,代码中有换行符\n,在hive中数据就乱了。原创 2022-09-07 10:24:52 · 1359 阅读 · 1 评论 -
DataX:异构数据源离线同步工具
DataX:异构数据源离线同步工具DataX实现了包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。类型数据源Reader(读)Writer(写)RDBMS 关系型数据库MySQL√√Oracle√√OceanBase√√SQLServer√√PostgreSQL√√DRDS√√通用RDBMS√√阿里云数仓数原创 2022-01-10 18:55:37 · 611 阅读 · 0 评论 -
DataX的简单应用
文章目录1、DataX模板2、同步Mysql数据到HDFS案例2.1 MySQLReader之TableMode提交任务测试2.2 MySQLReader之QuerySQLMode提交任务测试3、同步HDFS数据到Mysql案例提交任务测试4、DataX传参案例提交任务测试1、DataX模板方式一:DataX配置文件模板python bin/datax.py -r mysqlreader -w hdfswriter方式二:官方文档https://github.com/alibaba/DataX/原创 2022-01-11 20:56:21 · 1041 阅读 · 0 评论 -
DataX优化
1、速度控制 DataX3.0提供了包括通道(并发)、记录流、字节流三种流控模式,可以随意控制你的作业速度,让你的作业在数据库可以承受的范围内达到最佳的同步速度。关键优化参数如下:参数说明job.setting.speed.channel总并发数job.setting.speed.record总record限速job.setting.speed.byte总byte限速core.transport.channel.speed.record单个channe原创 2022-01-11 21:05:54 · 2525 阅读 · 0 评论