实验1：spark新建一个rdd的时候会不会把数据读取到内存中

最新推荐文章于 2022-07-02 18:31:45 发布

沉思的李坤鹏

最新推荐文章于 2022-07-02 18:31:45 发布

阅读量224

点赞数

分类专栏： spark 文章标签： spark scala

本文链接：https://blog.csdn.net/u010965027/article/details/115856959

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

实验1：spark新建一个rdd的时候会不会把数据读取到内存中

实验工具：spark-shell

步骤：
1，spark读取一个不存在的hdfs文件新建一个rdd
2，rdd map
3，rdd reduce
结果：
在第1步和第2步并不会报错，第3步会报错，不存在的hdfs文件
结论：
新建sparkrdd的时候，并不会把数据读取到内存中，因为第一步没有报错，所以如果这个时候spark加载了数据，那么就会发现这个文件并不存在，然后再第一步的时候就报错

代码里也验证了这个情况

new HadoopRDD(
  this,
  confBroadcast,
  Some(setInputPathsFunc),
  inputFormatClass,
  keyClass,
  valueClass,
  minPartitions).setName(path)

先新建一个HadoopRDD对象，然后仅仅设置了Name

引申：
spark的一个原则是只有action才会触发任务执行

沉思的李坤鹏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实验1：spark新建一个rdd的时候会不会把数据读取到内存中

实验1：spark新建一个rdd的时候会不会把数据读取到内存中实验工具：spark-shell步骤：1，spark读取一个不存在的hdfs文件新建一个rdd2，rdd map3，rdd reduce结果：在第1步和第2步并不会报错，第3步会报错，不存在的hdfs文件结论：新建sparkrdd的时候，并不会把数据读取到内存中，因为第一步没有报错，所以如果这个时候spark加载了数据，那么就会发现这个文件并不存在，然后再第一步的时候就报错代码里也验证了这个情况new HadoopRDD(
复制链接

扫一扫