spark 读取多个路径_当spark读取一个非常大的本地文件时,读入内存后分区会自动分布到多个节点上吗?...

本文详细解析了Spark在读取本地文件时的处理方式。在读取本地文件而非HDFS时,文件需要在所有worker节点上都存在,每个节点的task会读取文件的一部分。通过源码分析,解释了文件如何被分割为Partition,以及在没有PreferredLocation的情况下,任务如何通过Round-Robin策略分配到Executor上。此外,指出这种方法仅适用于调试,不推荐用于生产环境,因为可能导致文件复制数与节点数同步增长。
摘要由CSDN通过智能技术生成

一·是在执行action的时候再拷贝相应分区到多个worker节点进行并行计算吗?

不是,这种读取local file system而不是hdfs的情况,需要同一个文件存在所有的worker node上面,在读取的时候每个worker node的task会去读取本文件的一部分。打个比方,比如你有一个file,有一个spark集群(node1是master,node2,node3两个是slaves),那么这个file需要在node2,node3上面都存在,这两个节点的task会各读一半,不然会出错。(这里其实还有一个点注意,你的spark app所运行的节点也需要有这个file,因为需要用到file进行Partition划分)。

二·具体对应哪一段源码。

1.由读取文件的方法SparkContext.textFile(path)跟踪源码知道它利用了TextInputFormat生成了一个HadoopRDD.

def textFile(

path: String,

minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {

assertNotStopped()

hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],

minPartitions).map(pair => pair._2.toString)

}

def hadoopFile[K, V](

path: String,

inputFormatClass: Class[_ <: inputformat v>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值