Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

最新推荐文章于 2022-08-21 15:29:38 发布

weixin_34081595

最新推荐文章于 2022-08-21 15:29:38 发布

阅读量271

点赞数

文章标签：大数据

原文链接：https://juejin.im/post/5ce4c3d66fb9a07eb55f32b5

版权

1，在 HDFS 中会以 Block 为单位进行存储很多的 File，也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上；

2，当 Spark 读取 HDFS 上的文件作为输入时，会根据具体数据格式对应的 InputFormat 进行解析，一般情况下是将很多个 Block 合并成一个 InputSplit（InputSplit不能跨越文件）；

3，然后，会将这些 InputSplit 生成具体的 Task，一个 InputSplit 对应一个 Task；

4，然后这些 Task 会被分配到集群上的节点中每个 Executor 去执行；

注：

a，每个节点上会起一个或多个 Executor ；

b，每个 Executor 是由若干个 core 组成（这里的 core 是虚拟的 core，并不是指物理机器的 cpu 核，一般来说 spark 配置的 executor 核数不应该超过该节点的物理 cpu 核数），每个 core 一次只能执行一个 Task，其实这里的每个 Task 对应一个线程；

5，每个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion；

具体可以看下图：

参考：www.zhihu.com/question/33…

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34081595

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

1，在 HDFS 中会以 Block 为单位进行存储很多的 File，也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上；2，当 Spark 读取 HDFS 上的文件作为输入时，会根据具体数据格式对应的 InputFormat 进行解析，一般情况下是将很多个 Block 合并成一个 InputSplit（InputSplit不能跨越文件）；3，然后，会将这些 Inpu...
复制链接

扫一扫