Spark创建RDD的方式

最新推荐文章于 2024-08-01 16:11:59 发布

Magic.W

最新推荐文章于 2024-08-01 16:11:59 发布

阅读量618

点赞数

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_31589597/article/details/119812391

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spark并行化集合创建RDD

在这里插入图片描述

/**
 * 并行化集合通过parallelize方法创建RDD
 *
 * 调用parallelize方法是可以传入numSlices参数,该参数是用来指定该RDD的partition个数
 * Spark会为每个partition启动一个Task来计算
 * Spark官方建议为每个CPU创建2～4个partition
 */
object ParallelizeCollection {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf
    val conf = new SparkConf().setAppName("ParallelizeRDD").setMaster("local")
    // 创建SparkContext
    val sc = new SparkContext(conf)
    // 创建集合
    val array = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
    // 通过parallelize序列化创建RDD
    val rdd = sc.parallelize(array,5)
    // 进行reduce操作
    val sum = rdd.reduce((x, y) => x + y)
    // 输出结果
    println("累加和:" + sum)
  }

}

Spark根据本地文件创建RDD

在这里插入图片描述

object LocalFileRDD {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf
    val conf = new SparkConf().setAppName("LocalFileRDD").setMaster("local")
    // 创建SparkContext
    val sc = new SparkContext(conf)
    // 根据本地文件创建RDD
    val rdd1 = sc.textFile("/Users/wuwang/Desktop/data.txt")
    // 根据本地压缩文件创建RDD
    val rdd2 = sc.textFile("/Users/wuwang/Desktop/data.zip")
    // zip根据需要特殊转换
    val rdd5 = sc.binaryFiles("/Users/wuwang/Desktop/data.zip")
    val rdd = rdd5.flatMap {
      case (name: String, content: PortableDataStream) =>
        val zis = new ZipInputStream(content.open())
        Stream.continually(zis.getNextEntry)
          .takeWhile(_ != null)
          .flatMap(_ => {
            val reader = new BufferedReader(new InputStreamReader(zis))
            Stream.continually(reader.readLine()).takeWhile(_ != null)
          })
    }
    // 根据本地目录创建RDD
    val rdd3 = sc.textFile("/Users/wuwang/Desktop/data/")
}