创建RDD

创建RDD的两种方式:

1. 读取稳定物理存储(eg:HDFS)外部数据集

2. 在驱动程序中对一个集合进行并行化(也就是其它已有的RDD上执行确定性操作,这些确定性操作称作转换(Transformation)

 方法一:创建 RDD 最简单的方式就是把程序中一个已有的集合传给 SparkContext parallelize()方法,这种方式在学习 Spark 时非常有用,它让你可以在 shell 中快速创建出自己的 RDD,然后对这些 RDD 进行操作。不过,需要注意的是,除了开发原型和测试时,这种方式用得并不多,毕竟这种方式需要把你的整个数据集先放在一台机器的内存中。

object CreatRDD01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("creat")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(1,2,3))
    rdd1.foreach(r=>{
      println("creat rdd :"+r)
    })
  }
}

 方法二:更常用的方式是从外部存储中读取数据来创建 RDD。

object CreatRDD02 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("creat")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("E:\\ScalaProject\\SparkSum\\words")
    lines.foreach(line=>{
      println(line)
    })
  }

}

具体如何从外部存储读取数据,之后会进行详细的总结

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SunnyRivers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值