如何编写分布式的数据传输

最新推荐文章于 2023-09-22 23:18:27 发布

flybirding10011

最新推荐文章于 2023-09-22 23:18:27 发布

阅读量327

点赞数

文章标签：数据库大数据

原文链接：https://yq.aliyun.com/articles/697426

版权

一、原理
根据前面介绍的datax原理，数据传输主要包括两部分：1）切分task；2）task调度执行

二、如何切分task

根据不同的数据源可以有不同的切分方式（目标端进行适配），几种常见的切分方式
  1）mysql：如果是分库分表，可以按照单表切分成一个task；如果是单表，可以根据主键的区间值切分（参考datax的splitKey）
  2）hbase：根据region的rowkey进行切分
  3）文件：一个文件一个task，如果单文件可以切分（如orc文件），可以一个文件多个task
  4）kafka：可以按照partition进行切分
  5）其他的可以参考datax里面的reader插件

三、如何进行task调度执行
在datax里面，task的调度分成了两级，首先将task分配到不同的taskGroup，然后每个taskGroup里面有5个不同的线程去消费task，这种分配策略和分布式调度策略有相似之处。以Yarn为例，分配一个AM作为调度节点，每个container作为执行节点即可将datax移植到分布式的执行引擎上面，具体设计可以参考下图

四、上述实现方式即可以是mapreduce，也可以是spark，或者自己实现一个Yarn Application，我本人是使用mr实现上述设计

flybirding10011

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何编写分布式的数据传输

一、原理根据前面介绍的datax原理，数据传输主要包括两部分：1）切分task；2）task调度执行二、如何切分task根据不同的数据源可以有不同的切分方式（目标端进行适配），几种常见的切分方式 1）mysql：如果是分库分表，可以按照单表切分成一个task；如果是单表，可以根据主键的区间值切分（参考datax的splitKey） 2）h...
复制链接

扫一扫

flybirding10011

CSDN认证博客专家 CSDN认证企业博客

码龄10年

3335: 原创

-: 周排名

161万+: 总排名

371万+: 访问

: 等级

7万+: 积分

1万+: 粉丝

2627: 获赞

1769: 评论

5758: 收藏

私信

关注

热门文章

分类专栏

最新评论

DNN、CNN、RNN、LSTM的区别
Barrettt:
安卓逆向入门之frida框架简单使用
cjl_751013: 太简单了
呵呵
小测试_CCC: <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-ribbon</artifactId> </dependency>
周星驰 Web3 团队将上线独立 App；Gemini 刚发就惹质疑：效果视频疑似剪辑；Meta 推独立AI图像生成器｜极客头条...
假装自己很用心: 这是第一个代码 [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] 这是第二个代码[code=python] [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] [/code]
周星驰 Web3 团队将上线独立 App；Gemini 刚发就惹质疑：效果视频疑似剪辑；Meta 推独立AI图像生成器｜极客头条...
假装自己很用心: 啦啦啦啦遮挡代码 [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] 阿拉啦啦啦

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。