datax优化

一次数据同步任务6千多万的数据量,耗时20多分钟,运行状态如下:

可以看到任务平均流量为1.43MB/s,20分钟才运行结束。

调整点:调整channel并行度为5,并将运行内存调整为8g

python3 $bin_path --jvm="-Xms8G -Xmx8G" hdfs2mysql.json
"speed":{
                 "channel":5
        }

运行结果如下:

任务平均流量为4.55MB/s,6分钟运行结束,效率提升了3倍。

优化思路

DataX的数据同步涉及数据读取、数据交换和数据写入三部分,可以对每个部分进行优化加速。

{
    "core": {  #定义了全局的系统参数,如果不指定会使用默认值。
        "transport": {
            "channel": {
                "speed": {
                    "record": 5000,
                    "byte": 102400
                }
            }
        }
    },
    "job": {
        "setting": {
            "speed": {  #定义了单个channel的控制参数。
                "record": 10000,
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                      .....#省略
                },

                "writer": {
                    .....#省略
                }
            }
        ]
    }
}
  • 数据读取

    数据源读取有table模式和querySQL模式两种模式,选择table模式可以实现加速读取。splitPk:指定splitPk字段,DataX会将reader中数据按照splitPk切分成n段。splitPk的字段必须是整型或者字符串类型。由于DataX的实现方式是按照splitPk字段分段查询数据库表,那么splitPk字段的选取应该尽可能选择分布均匀且有索引的字段,例如主键ID、唯一键等字段。如果不指定splitPk字段,则DataX将不会进行数据的切分,并行度会变为1。

  • 数据交换部分,可以通过以下方面进行同步优化。
    • JVM的内存

      发送给数据库的SQL语句后会得到查询的数据集,并缓存在DataX的buffer中。除此之外,每个channel也维护了自己的record队列。如果存在并发,则channel的个数越多,也会需要更多的内存。因此可以考虑指定JVM的内存大小参数,即在中通过-j参数来指定JVM的内存大小。

      python datax.py  -j"-Xms8g -Xmx8g" hdfs2mysql.json
    • channel的个数和流控参数在conf/core.json中,控制channel的关键参数如下图所示。

      说明

      • 一般情况下,channel队列本身配置的调整并不常见,但是在使用DataX时应该注意byte和record流控参数。这两个参数都是在flowControlInterval间隔中采样后根据采样值来决定是否进行流控。
      • 为了提升同步效率,您可以适当提高channel的个数来提高并发数,以及调高每个channel的byte和record限制来提高DataX的吞吐量。
      • 请综合考虑channel的个数和流控参数,保证理论峰值不会对服务器产生过高的压力。

      channel的个数和流控参数

      详细参数说明请参见下表。
      参数描述
      capacity限制channel中队列的大小,即最多缓存的record个数。
      byteCapacity限制record占用的内存大小,单位为字节。默认值为64 MB,如果不指定此参数,则占用内存大小会被配置为8 MB。
      byte控流参数,限制通道的默认传输速率,-1表示不限制。
      record控流参数,限制通道的传输记录个数,-1表示不限制。

      capacity和byteCapacity两个参数决定了每个channel能缓存的记录数量和内存占用情况。如果要调整相应参数,您需要按照DataX实际的运行环境进行配置。例如MySQL中每个record都比较大,那么可以考虑适当调高byteCapacity,调整该参数时还请同时考虑机器的内存情况。

对于DataX-Web的性能优化,可以从以下几个方面入手: 1. 调整DataX Job内Channel并发数:当提升DataX Job内Channel并发数时,内存的占用会显著增加,因为DataX作为数据交换通道,在内存中会缓存较多的数据。为了防止OOM等错误,可以调大JVM的堆内存。可以通过调整JVM的-Xms和-Xmx参数来增加堆内存的分配。\[1\]\[2\] 2. 全局调优:可以通过修改DataX-Web的配置文件来进行全局调优。在配置文件中,可以调整数据导入的并发度、解除对读取行数和字节的限制,以及设置每次读取batch的大小等参数。根据服务器硬件情况进行调优,可以提升DataX-Web的性能。\[3\] 3. 硬件优化:除了软件层面的调优,还可以考虑进行硬件优化。例如,增加服务器的内存、CPU等硬件资源,提升服务器的性能,从而提高DataX-Web的性能。 综上所述,对于DataX-Web的性能优化,可以通过调整DataX Job内Channel并发数、全局调优和硬件优化等方式来提升性能。 #### 引用[.reference_title] - *1* *2* [DataX优化](https://blog.csdn.net/qq_36593748/article/details/122441642)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [DataX3.0 启动参数说明及优化](https://blog.csdn.net/qq_23268209/article/details/90437073)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值