Spark编程RDD

最新推荐文章于 2022-12-05 14:18:46 发布

か花黎punlm＇

最新推荐文章于 2022-12-05 14:18:46 发布

阅读量383

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_52179292/article/details/127016222

版权

创建RDD的三种方式：使用程序中的集合创建RDD ；使用本地文件创建RDD ；使用HDFS文件创建RDD
如果要通过集合来创建RDD，需要针对程序中的集合，调用SparkContext的parallelize()方法。而通过SparkContext的textFile()方法，则可以针对本地文件或HDFS文件创建RDD。

RDD支持两种操作：转换（transformation），即从现有的数据集创建一个新的数据集；动作（action），即在数据集上进行计算后，返回一个值给Driver程序。

RDD持久化作用：当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。
语句：rdd.cache() / rdd.persist(MEMORY_ONLY)

RDD分区的作用：增加并行度，减少通信开销。

RDD分区的原则：使分区的个数尽量等于集群中的CPU核心数目。（目的：可以实现并行）
对于不同的Spark部署模式而言（Local模式、Standalone模式、YARN模式、Mesos模式），都可以通过设置spark.default.parallelism这个参数的值，来配置默认的分区数目。
本地模式：默认为本地机器的CPU数目，若设置了local[N],则默认为N，local[*]则自动判断
*Apache Mesos：默认的分区数为8
*Standalone或YARN：在“集群中所有CPU核心数目总和”和“2”二者中取较大值作为默认值