spark RDD编程实践例子

最新推荐文章于 2024-06-26 10:48:25 发布

jacobwe

最新推荐文章于 2024-06-26 10:48:25 发布

阅读量770

点赞数

分类专栏：大数据开发文章标签：大数据spark笔记

本文链接：https://blog.csdn.net/jacobwe/article/details/93619730

版权

大数据开发专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文把spark基本操作函数方法详细描述，并应用实践

sparkSesion ：是对在spark 2.0后出现了 sparksession 的方法来声明
spark conf 和context ：是spark 早期版本的数据生成RDD和配置 RDD的方法

// Sample
val sparkSession = SparkSession.builder().appName(s"${this.getClass.getSimpleName}")
.config(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)
.master(“local[2]”)
.getOrCreate()

sparkSession.textFile 获取数据加载的目录
spark.config 》设置数据序列化的方式
sparksession.master 设置运行模式setMaster主要是连接主节点，如果参数是”local”，则在本地用单线程运行spark，如果是 local[4]，则在本地用4核运行
.getOrCreate () 建立RDD

常用的spark的RDD转换操作，个人理解哈，有错误清见谅～
fliter 对数据内容进行匹配操作
map 对数据进行分成 Array 后进行函数式操作
flatMap 对数据的分成最少数据单元，后进行函数操作
groupByKey 对数组中的 key 数值进行分组
reduceByKey 对key值域进行聚合归并操作
paralleize 区分成多个RDD