自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

数据之路

专注数据架构外功修行,内功修神

博客等级

码龄14年

领域专家: 大数据技术领域

业界专家认证

200
原创

530
点赞

1115
收藏

966
粉丝

关注

私信

热门文章

分类专栏

最新评论

做到真正0丢失、0重复：SeaTunnel 实现万亿级数据同步一致性全解密
熵缄猫: 我要是有8000个表，那table-names 里面写80001行吗
做到真正0丢失、0重复：SeaTunnel 实现万亿级数据同步一致性全解密
代立冬: > 当Sink的数据源为数据库时，写入一致性为什么使用了XA分布式事务呀？因为需要将分布式作业的状态检查点与数据库写入操作协调起来，确保在故障恢复时数据的一致性。 > 是由于checkPoint是定时存储的原因吗？是的，由于 Checkpoint 是周期性触发的，在两个 Checkpoint 之间可能有多次数据写入，需要将这些写入作为一个原子操作处理。 > 在checkpoint开启到持久化这段时间内对于同步任务来说可能发生了多次写入，所以针对checkpoint开启了全局事务，每次写入都是一个分支事务么? 这里有一点区别：在 SeaTunnel 的实现中，每个 Checkpoint 周期对应一个 XA 事务，而不是每次写入都是一个分支事务。所有在同一 Checkpoint 周期内的写入操作都属于同一个 XA 事务。当 Checkpoint 触发时，当前事务被 prepare，并开启新事务用于下一个 Checkpoint 周期的写入。这种设计确保了即使系统崩溃，恢复后也能准确地知道哪些数据已经被安全写入，哪些需要重新处理，从而实现 exactly-once 语义。
做到真正0丢失、0重复：SeaTunnel 实现万亿级数据同步一致性全解密
酒剑随马@: 麻烦问个问题，当Sink的数据源为数据库时，写入一致性为什么使用了XA分布式事务呀？是由于checkPoint是定时上报master持久化存储的原因吗，一个checkpoint开启到上报持久化这段时间内对于同步任务来说可能发生了多次写入，所以从checkpoint维度开启了全局事务，每次写入都是一个分支事务么
流行的开源高性能数据同步工具 - Apache SeaTunnel 整体架构运行原理
代立冬: 这个要看下任务并行度和任务配置文件
流行的开源高性能数据同步工具 - Apache SeaTunnel 整体架构运行原理
大阳光吗: 博主在吗，有个问题想请教一下，我装完seatunnel集群后，运行任务发现只会在随机一个节点运行，不是分布式运行，请问之前有遇到过吗?

--------【Hadoop】

关注

文章平均质量分 91

关注数：文章数：11 文章阅读量：44878 文章收藏量：8

作者: 代立冬

StayHungryStayFoolish外功修行内功修神

展开

专栏收录文章