spark RDD编程实践例子

本文把spark基本操作函数方法详细描述,并应用实践

sparkSesion :是对在spark 2.0后出现了 sparksession 的方法来声明
spark conf 和context :是spark 早期版本的数据生成RDD和配置 RDD的 方法

// Sample
val sparkSession = SparkSession.builder().appName(s"${this.getClass.getSimpleName}")
.config(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)
.master(“local[2]”)
.getOrCreate()

sparkSession.textFile 获取数据加载的目录
spark.config 》设置数据序列化的方式
sparksession.master 设置运行模式setMaster主要是连接主节点,如果参数是”local”,则在本地用单线程运行spark,如果是 local[4],则在本地用4核运行
.getOrCreate () 建立RDD

常用的spark的RDD转换操作,个人理解哈,有错误清见谅~
fliter 对数据内容进行匹配操作
map 对数据进行分成 Array 后进行函数式操作
flatMap 对数据的分成最少数据单元,后进行函数操作
groupByKey 对数组中的 key 数值进行分组
reduceByKey 对key值域进行聚合归并操作
paralleize 区分成多个RDD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一些初级实践问题及其解决方法: 1. 如何创建一个RDD? 可以通过从SparkContext对象中获取SparkConf对象来创建一个SparkContext对象,然后使用SparkContext对象的parallelize方法来创建一个RDD。 例如: ```python from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("MyApp").setMaster("local") sc = SparkContext(conf=conf) data = [1, 2, 3, 4, 5] rdd = sc.parallelize(data) ``` 2. 如何对RDD进行转换操作? 可以使用RDD的各种转换方法,如map、filter、flatMap等方法来对RDD进行转换操作。 例如: ```python # 对RDD中的每个元素都加1 rdd1 = rdd.map(lambda x: x + 1) # 过滤出RDD中的偶数 rdd2 = rdd.filter(lambda x: x % 2 == 0) # 对RDD中的每个元素都进行分割,返回一个新的RDD rdd3 = rdd.flatMap(lambda x: str(x).split(',')) ``` 3. 如何对RDD进行行动操作? 可以使用RDD的各种行动方法,如count、collect、reduce等方法来对RDD进行行动操作。 例如: ```python # 统计RDD中元素的个数 count = rdd.count() # 将RDD中的所有元素收集到一个列表中 data = rdd.collect() # 对RDD中的所有元素进行求和 sum = rdd.reduce(lambda x, y: x + y) ``` 4. 如何进行RDD的持久化? 可以通过使用RDD的cache或persist方法来将RDD持久化到内存或磁盘中。 例如: ```python # 将RDD持久化到内存中 rdd.cache() # 将RDD持久化到磁盘中 rdd.persist(StorageLevel.DISK_ONLY) ``` 5. 如何对RDD进行排序? 可以使用RDD的sortBy方法来对RDD进行排序。 例如: ```python # 对RDD中的元素进行排序,升序 rdd1 = rdd.sortBy(lambda x: x) # 对RDD中的元素进行排序,降序 rdd2 = rdd.sortBy(lambda x: x, False) ``` 以上是一些初级实践问题及其解决方法,希望对你有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值