RDD的创建

最新推荐文章于 2024-07-04 07:15:00 发布

feiyuciuxun

最新推荐文章于 2024-07-04 07:15:00 发布

阅读量353

点赞数

分类专栏： spark 文章标签： RDD创建

本文链接：https://blog.csdn.net/feiyuciuxun/article/details/104063320

版权

spark 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

RDD有三种创建方式

1、从内存/集合中创建

val conf: SparkConf = new SparkConf().setAppName("test01").setMaster("local[*]")
val sc = new SparkContext(conf)
    
val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3, 4))

val rdd2: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))

注：

makeRDD和parallelize方法是一回事，makeRDD内部会调用parallelize方法。
parallelize和makeRDD还有一个重要的参数就是把数据集切分成的分区数
Spark会为每个分区运行一个任务（task），正常情况下，Spark会自动的根据你的集群来设置分区数

使用以上方法创建RDD时，可以指定分区数，例如 makeRDD(List(1,2,3,4),3)，指定三个分区。如果不在代码里面显示指定分区数，则会使用默认分区数，即按照创建conf里传入的setMaster()里面的参数指定分区数，如果setMaster里没指定，则使用totalCores作为分区数。即有多少个内核就是多少个分区

    def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
    }

2、从外部存储创建RDD

Spark 也可以从任意 Hadoop 支持的存储数据源来创建分布式数据集.

可以是本地文件系统, HDFS, Cassandra, HVase, Amazon S3 等等.

Spark 支持文本文件, SequenceFiles, 和其他所有的 Hadoop InputFormat.

val conf: SparkConf = new SparkConf().setAppName("test01").setMaster("local[*]")
val sc = new SparkContext(conf)

val line: RDD[String] = sc.textFile("inputFile")
line.saveAsTextFile("out")

url可以是本地文件系统文件, hdfs://..., s3n://...等等
如果是使用的本地文件系统的路径, 则必须每个节点都要存在这个路径
所有基于文件的方法, 都支持目录, 压缩文件, 和通配符(*). 例如: textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").
textFile还可以有第二个参数, 表示分区数. 默认情况下, 每个块对应一个分区.(对 HDFS 来说, 块大小默认是 128M). 可以传递一个大于块数的分区数, 但是不能传递一个比块数小的分区数.

textFile还可以传第二个参数，

def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

此处的defaultParallelism也是conf中的指定的值。和makeRDD中一样。

feiyuciuxun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录