datax底层原理_Datax数据统计原理

本文详细介绍了DataX在standalone模式下数据统计的原理,重点解析了Communication类的作用和管理机制。Communication用于存储统计信息,包括读写速度、异常、状态等,并提供了合并不同任务组统计信息的方法。LocalTGCommunicationManager负责集中管理每个task组的Communication,提供获取整个作业统计信息的功能。此外,还阐述了Channel如何更新统计数据以及调度器如何收集汇总数据的过程。
摘要由CSDN通过智能技术生成

Datax 数据统计原理

根据datax的运行模式的区别, 数据的收集会有些区别,这篇文章都是讲的在standalone模式下。

统计数据类

DataX所有的统计信息都会保存到Communication类里面。Communication支持下列数据的统计计数器,比如读取的字节速度,写入成功的数据条数

统计的时间点

字符串类型的消息

执行时的异常

执行的状态, 比如成功或失败

Communication有下列属性保存统计数据1

2

3

4

5

6

7

8

9

10

11

12

13

14private Map counter;

// 执行状态

private State state;

// 异常记录

private Throwable throwable;

//在哪个时间点统计数据

private long timestamp;

// 消息集合

Map> message;

如果需要汇总多个Communication的数据,Communication提供了mergeFrom方法。根据不同的数据类型,对应着不同的操作计数器类型,相同的key的数值累加

合并异常,当自身的异常为null,才合并别的异常

合并状态,如果有任意一个的状态失败了,那么返回失败的状态。如果有任意一个的状态

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值