spark 为什么总是起200个task

204 篇文章 480 订阅 ¥49.90 ¥99.00
博客探讨了Spark中partition与task的关系,指出默认情况下,如果输入数据超过200个partition或设定partition参数,task数量会随之改变。分区数量影响处理效率,但并非越多越好。在数据读取、Map和Reduce阶段,partition数量会有所不同。可通过配置参数全局或在任务级别修改task数量以优化性能。
摘要由CSDN通过智能技术生成

1.美图

在这里插入图片描述

默认参数, 如果你输入的数据大于200个partition或者在数据数据的时候加入partition参数就可以改变了

park中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。

partition分区概念

分区概念spark的分区是RDD里的一个概念,RDD为分布式弹性工作集,因为数据量很大,所以RDD分布在各个节点分区里,我们操作RDD,实际上就是操作分区的数据

对应关系

spark parition和HDFS block的初始数量关系基本认为一对一
spark partition和kafka parition的初始数量关系也是一对一
没有shuffle过程,partition是不变的 ,经过shuffle,可以通过算子改变或者通过colease()和repaitition()改变

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九师兄

你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值