RDD行动Action操作(2)–take、top、takeOrdered

take

def take(num: Int): Array[T]

take用于获取RDD中从0到num-1下标的元素,不排序。

 
 
  1. scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  2. rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21
  3.  
  4. scala> rdd1.take(1)
  5. res0: Array[Int] = Array(10)
  6.  
  7. scala> rdd1.take(2)
  8. res1: Array[Int] = Array(10, 4)
  9.  

top

def top(num: Int)(implicit ord: Ordering[T]): Array[T]

top函数用于从RDD中,按照默认(降序)或者指定的排序规则,返回前num个元素。

 
 
  1. scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  2. rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21
  3.  
  4. scala> rdd1.top(1)
  5. res2: Array[Int] = Array(12)
  6.  
  7. scala> rdd1.top(2)
  8. res3: Array[Int] = Array(12, 10)
  9.  
  10. //指定排序规则
  11. scala> implicit val myOrd = implicitly[Ordering[Int]].reverse
  12. myOrd: scala.math.Ordering[Int] = scala.math.Ordering$$anon$4@767499ef
  13.  
  14. scala> rdd1.top(1)
  15. res4: Array[Int] = Array(2)
  16.  
  17. scala> rdd1.top(2)
  18. res5: Array[Int] = Array(2, 3)
  19.  

takeOrdered

def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]

takeOrdered和top类似,只不过以和top相反的顺序返回元素。

 
 
  1. scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  2. rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21
  3.  
  4. scala> rdd1.top(1)
  5. res4: Array[Int] = Array(2)
  6.  
  7. scala> rdd1.top(2)
  8. res5: Array[Int] = Array(2, 3)
  9.  
  10. scala> rdd1.takeOrdered(1)
  11. res6: Array[Int] = Array(12)
  12.  
  13. scala> rdd1.takeOrdered(2)
  14. res7: Array[Int] = Array(12, 10)
  15.  
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Spark中,`take`和`takeOrdered`是用于获取RDD或DataFrame中的元素的操作。 `take(n)`操作返回RDD或DataFrame中的前n个元素作为一个数组。如果RDD或DataFrame中的元素没有排序,则返回的数组是无序的。这个操作在需要获取一小部分数据进行查看或调试时非常有用。 `takeOrdered(n)`操作返回RDD或DataFrame中的前n个元素作为一个按照自然顺序或指定排序顺序排列的数组。如果是按照自然顺序排序,那么前n个最小的元素将被返回。如果需要按照自定义的排序顺序排序,则需要提供一个自定义的比较函数。这个操作在需要获取排名靠前的元素时非常有用。 下面是它们的使用示例: ```python # 使用take操作获取RDD中的前5个元素 rdd = spark.sparkContext.parallelize([1, 4, 2, 3, 5, 8, 7, 6]) result = rdd.take(5) print(result) # 输出: [1, 4, 2, 3, 5] # 使用takeOrdered操作获取RDD中的前5个最小元素 rdd = spark.sparkContext.parallelize([1, 4, 2, 3, 5, 8, 7, 6]) result = rdd.takeOrdered(5) print(result) # 输出: [1, 2, 3, 4, 5] # 使用takeOrdered操作获取RDD中的前5个最大元素 rdd = spark.sparkContext.parallelize([1, 4, 2, 3, 5, 8, 7, 6]) result = rdd.takeOrdered(5, lambda x: -x) print(result) # 输出: [8, 7, 6, 5, 4] # 使用take操作获取DataFrame中的前5行数据 df = spark.read.csv('data.csv', header=True) result = df.take(5) print(result) # 输出: 前5行的DataFrame数据 ``` 注意,在实际应用中,使用这些操作时需要考虑数据量的大小和分布情况,以免造成性能问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值