一次数据同步任务6千多万的数据量,耗时20多分钟,运行状态如下:
可以看到任务平均流量为1.43MB/s,20分钟才运行结束。
调整点:调整channel并行度为5,并将运行内存调整为8g
python3 $bin_path --jvm="-Xms8G -Xmx8G" hdfs2mysql.json
"speed":{
"channel":5
}
运行结果如下:
任务平均流量为4.55MB/s,6分钟运行结束,效率提升了3倍。
优化思路
DataX的数据同步涉及数据读取、数据交换和数据写入三部分,可以对每个部分进行优化加速。
{
"core": { #定义了全局的系统参数,如果不指定会使用默认值。
"transport": {
"channel": {
"speed": {
"record": 5000,
"byte": 102400
}
}
}
},
"job": {
"setting": {
"speed": { #定义了单个channel的控制参数。
"record": 10000,
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
.....#省略
},
"writer": {
.....#省略
}
}
]
}
}
- 数据读取
数据源读取有table模式和querySQL模式两种模式,选择table模式可以实现加速读取。splitPk:指定splitPk字段,DataX会将reader中数据按照splitPk切分成n段。splitPk的字段必须是整型或者字符串类型。由于DataX的实现方式是按照splitPk字段分段查询数据库表,那么splitPk字段的选取应该尽可能选择分布均匀且有索引的字段,例如主键ID、唯一键等字段。如果不指定splitPk字段,则DataX将不会进行数据的切分,并行度会变为1。
- 数据交换部分,可以通过以下方面进行同步优化。
- JVM的内存
发送给数据库的SQL语句后会得到查询的数据集,并缓存在DataX的buffer中。除此之外,每个channel也维护了自己的record队列。如果存在并发,则channel的个数越多,也会需要更多的内存。因此可以考虑指定JVM的内存大小参数,即在中通过
-j
参数来指定JVM的内存大小。python datax.py -j"-Xms8g -Xmx8g" hdfs2mysql.json
- channel的个数和流控参数在conf/core.json中,控制channel的关键参数如下图所示。
说明
- 一般情况下,channel队列本身配置的调整并不常见,但是在使用DataX时应该注意byte和record流控参数。这两个参数都是在flowControlInterval间隔中采样后根据采样值来决定是否进行流控。
- 为了提升同步效率,您可以适当提高channel的个数来提高并发数,以及调高每个channel的byte和record限制来提高DataX的吞吐量。
- 请综合考虑channel的个数和流控参数,保证理论峰值不会对服务器产生过高的压力。
参数 描述 capacity 限制channel中队列的大小,即最多缓存的record个数。 byteCapacity 限制record占用的内存大小,单位为字节。默认值为64 MB,如果不指定此参数,则占用内存大小会被配置为8 MB。 byte 控流参数,限制通道的默认传输速率,-1表示不限制。 record 控流参数,限制通道的传输记录个数,-1表示不限制。 capacity和byteCapacity两个参数决定了每个channel能缓存的记录数量和内存占用情况。如果要调整相应参数,您需要按照DataX实际的运行环境进行配置。例如MySQL中每个record都比较大,那么可以考虑适当调高byteCapacity,调整该参数时还请同时考虑机器的内存情况。
- JVM的内存