Spark RDD

一、什么是 RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

➢ 弹性

⚫ 存储的弹性:内存与磁盘的自动切换

⚫ 容错的弹性:数据丢失可以自动恢复

⚫ 计算的弹性:计算出错重试机制

⚫ 分片的弹性:可根据需要重新分片。

➢ 分布式:数据存储在大数据集群不同节点上

➢ 数据集:RDD 封装了计算逻辑,并不保存数据

➢ 数据抽象:RDD 是一个抽象类,需要子类具体实现

➢ 不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在

新的 RDD 里面封装计算逻辑

➢ 可分区、并行计算

二、Spark中的RDD(弹性分布式数据集)有以下常用API:

  1. map(func): 对RDD中的每个元素应用给定的函数,并返回一个新的RDD。
      val mapRDD = rdd.map(
        num => {
          // 使用累加器
          sumAcc.add(num)
          num
        }
      )
    
  2. filter(func): 根据给定的函数过滤RDD中的元素,并返回一个新的RDD。
      val orderActionRDD = actionRDD.filter(
        action => {
          val datas = action.split("_")
          datas(8) != "null"
        }
      )
    
  3. flatMap(func): 对RDD中的每个元素应用给定的函数,并将结果扁平化为一个新的RDD。
    val words: RDD[String] = lines.flatMap(_.split(" "))
    
  4. reduce(func): 使用给定的函数将RDD中的所有元素聚合成一个值。
      val wordCount = mapWord.reduce(
        (map1, map2) => {
          map2.foreach {
            case (word, count) => {
              val newCount = map1.getOrElse(word, 0L) + count
              map1.update(word, newCount)
            }
          }
          map1
        }
      )
    
  5. collect(): 将RDD中的所有元素收集到驱动程序节点的数组中。
    mapRDD.collect()
    
  6. count(): 返回RDD中的元素个数。

    val cnt = rdd.count()
    
  7. first(): 返回RDD中的第一个元素。

    val first = rdd.first()
    
  8. take(n): 返回RDD中的前n个元素。

    val ints: Array[Int] = rdd.take(3)
    
  9. takeSample(withReplacement, num, seed): 从RDD中随机抽取样本。

    
    
  10. foreach(func): 对RDD中的每个元素应用给定的函数,但不返回结果。

    rdd.foreach(
     num => {
    // 使用累加器
       sumAcc.add(num)
      }
    )
    
  11. foreachPartition(func): 对RDD中的每个分区应用给定的函数。

      rdd.foreachPartition(iter => {
        val conn = JDBCUtil.getConnection
        iter.foreach {
          case ((day, user, ad), count) => {
    
          }
        }
        conn.close()
      })
    
  12. groupByKey(): 根据键值对RDD中的键进行分组。

    
    
  13. reduceByKey(func): 根据键值对RDD中的键进行聚合。

    
    
  14. aggregateByKey(zeroValue, seqOp, combOp): 根据键值对RDD中的键进行聚合。

    
    
  15. sortBy(keyFunc): 根据给定的键函数对RDD中的元素进行排序。

    
    
  16. sortBy(keyFunc, ascending): 根据给定的键函数和升序标志对RDD中的元素进行排序。

    
    
  17. union(other): 合并两个RDD。

    
    
  18. intersection(other): 计算两个RDD的交集。

    
    
  19. subtract(other): 计算两个RDD的差集。

    
    
  20. distinct(): 去除RDD中的重复元素。

    
    
  21. cartesian(other): 计算两个RDD的笛卡尔积。

    
    
  22. pipe(command): 使用外部命令处理RDD中的数据。

    
    
  23. saveAsTextFile(path): 将RDD保存为文本文件。

    
    
  24. textFile(path): 从文本文件中读取数据并创建RDD。

    
    
  25. parallelize(data): 从集合中创建RDD。

    
    
  26. toDF(): 将RDD转换为DataFrame。

    
    
  27. toDS(): 将RDD转换为Dataset。

    
    

这些API是Spark RDD编程模型中最常用的一些,它们可以帮助你完成数据处理、转换和聚合等任务。

  • 21
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值