spark创建RDD方式

最新推荐文章于 2022-07-12 10:18:17 发布

青于蓝胜于蓝

最新推荐文章于 2022-07-12 10:18:17 发布

阅读量494

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/hyt2008100275/article/details/78175092

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Spark RDD基本创建所需要的数据源（集合、本地文件、HDFS、Hbase和HiveSQL等）

1利用集合创建RDD，就是为了方便测试。

调用SparkContext的parallelize()方法进行创建并行化的数据集合。

val arrays =Array(1,3,4,5,6,7,11,29)

val arrayRDD = sc.parallelize(arrays, num)

val totalySum = arrayRDD.reduce(_ + _)

1、调用parallelize()时，我们可以指定要将集合切分成多少个partition。

Spark会为每一个partition运行一个task线程进行处理。

2、Spark默认情况下，建议每个CPU创建2~4个partition。

默认会根据此值进行partition的创建。但是也可以在调用parallelize()方法时，

传入第二个参数，来设置RDD的partition数量。比如parallelize(arr, 10)

2、使用本地文件创建RDD时，主要进行大数据量的操作，在提交给Spark集群之前，做一些验证。

//第一步：创建sparkConf

val sparkConf = new SparkConf()
.setAppName("aa")
.setMaster("local[2]")
//第二部：创建SparkContext
val sc = new SparkContext(sparkConf)
//第三步：加载数据
val linesRDD:RDD[String] = sc.textFile("E:/data/spark/core/hello.txt")
/*//第四部：执行各种transformation
val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
//第五步：执行action(多次)
retRDD.foreach(t => println(t))*/

linesRDD.flatMap(_.split(" "))
.map((_, 1))
.reduceByKey(_+_)
.foreach(println)
//第六步：关闭资源
sc.stop()

3、生产环境中使用HDFS、HBase，HvieSQL、ZMQ和Kafka等各种原始数据。

3.1：hdfs

def main(args: Array[String]): Unit = {
//第一步：创建sparkConf
val sparkConf = new SparkConf()
.setAppName("bb")
// .setMaster("spark://km1:7077")//spark子群自身 standalone
//第二部：创建SparkContext
val sc = new SparkContext(sparkConf)
//第三步：加载数据
val linesRDD:RDD[String] = sc.textFile("hdfs://ns1/input/spark/data.log")
/*//第四部：执行各种transformation
val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
//第五步：执行action(多次)
retRDD.foreach(t => println(t))*/

linesRDD.flatMap(_.split(" "))
.map((_, 1))
.reduceByKey(_+_)
// .collect()//把spark worker节点上面的数据拉回到dirver节点上
// .foreach(println)//这样去执行的话，可能看不到任何的输出
.saveAsNewAPIHadoopFile("hdfs://ns1/output/spark",
classOf[Text], classOf[IntWritable], classOf[TextOutputFormat[Text, IntWritable]])
//第六步：关闭资源
sc.stop()
}
def merge(v1:Int, v2:Int) = v1 + v2

青于蓝胜于蓝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark创建RDD方式

Spark RDD基本创建所需要的数据源（集合、本地文件、HDFS、Hbase和HiveSQL等） 1利用集合创建RDD，就是为了方便测试。调用SparkContext的parallelize()方法进行创建并行化的数据集合。val arrays =Array(1,3,4,5,6,7,11,29)valarrayRDD =sc.par
复制链接

扫一扫

专栏目录