Spark Core API

最新推荐文章于 2024-03-08 08:57:31 发布

nihao_pcm

最新推荐文章于 2024-03-08 08:57:31 发布

阅读量376

点赞数

分类专栏：大数据文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nihao_pcm/article/details/86666841

版权

SparkContext是Spark库的入口点，每个应用程序需创建一个实例。文章讲解了如何创建RDD，包括parallelize、textFile、wholeTextFiles和sequenceFile方法。接着详细介绍了RDD的操作，分为转换和行动，如filter、map、reduceByKey、join等，并探讨了控制算子如cache、persist和checkpoint。最后讨论了广播变量和累加器的使用。

摘要由CSDN通过智能技术生成

一、SparkContext

SparkContext是一个在Spark库中定义的类。它是Spark库的入口点。它表示与Spark集群的一个连接。每个Spark应用程序都必须创建一个SparkContext类实例。目前，每个Spark应用程序只能拥有一个激活的SparkContext类实例。如果要创建一个新的实例，那么必须让当前激活的实例失活。

val config = new SparkConf().setMaster("spark://host:port").setAppName("big app")

val sc =new SparkContext(config)

二、创建RDD

parallelize

从本地Scala集合创建RDD实例。它会对Scala集合中的数据重新分区、重新分布，然后返回一个代表这些数据的RDD。这个方法很少用在生产上，但它有助于学习。

val xs = (1 to 100000).toList

val rdd = sc.parallelize(xs)

textFile

textFile方法用于从文本文件创建RDD实例。它可以从多种来源读取数据，包括单个文件、本地同一目录的多个文件、HDFS、Amazon S3,或其他Hadoop支持的存储系统，这个方法返回一个RDD，这个RDD代表的数据集每个元素都是一个字符串，每一个字符串代表输入文件中的一行。

textFile可以读取压缩文件中的数据。而且，它的参数中存在通配符，用于从一个目录中读取多个文件，textFile第二个参数是一个可选参数，用于制定分区的个数。默认情况下，Spark为每一个文件分块创建一个分区。可以设置成一个更大的数字从而提高并行化程度，但是设置成一个小于文件分块数是不可以的。

val rdd = sc.textFile("hdfs://namenode:9000/path/to/file-or-directory/*.gz")

wholeTextFiles

这个方法读取目录下的所有文本文件，然后返回一个由键值对RDD。返回RDD中的每一个键值对对应一个文件。键为文件路径，对应的值为该文件的内容。这个方法可以从多种来源读取文件。

val rdd =sc.wholeTextFiles("/path/to/file-or-directory/*.txt")

sequenceFile

sequenceFile方法从SequenceFile文件中获取键值对数据。这个方法返回一个键值对型RDD实例。当使用这个方法的时候，不仅需要提供文件名，还需要提供文件中数据键和值各自的类型

val rdd = sc.sequenceFile[String,String]("soem-file")

三、RDD操作

RDD操作可以归为两类：转换（Transformations）和行动（action）。转换将会转换将会创建一个新的RDD实例。行动则会将结果返回给驱动程序。

Transformations转换算子：转换指的是在原RDD实例上进行计算，而后创建一个新的RDD实例。Transformations类算子是一类算子（函数）叫做转换算子，如map,f

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。