Spark范例:SortByKey

前年的文章,备份

spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。
SortByKey常用于构建倒排索引上。

比如原始数据结构为
(key1,4)
(key1,3)
(key1,7)
(key1,1)
需要转换成
(key1,(1,3,4,7))

我创建了一个简单的数据样本,保存到一个文件里sortByKey.txt。也可以自己通过parallelize随机生成
文件里的内容如下:

key1 2
key1 3
key2 54
key1 23
key2 12
key3 45
key3 5
key1 53
key2 4
key3 78
key3 17
key2 6
key1 70
key1 74
key2 45
key1 41
key2 14

使用spark完成这样的任务也很简单,代码如下:

import spark.SparkContext
import spark.SparkContext._
 
object SortByKey {
  def main(args: Array[String]) {
     if (args.length == 0) {
      System.err.println("Usage: SortByKey   [slices]")
      System.exit(1)
    }
    var slices = if (args.length > 2) args(1).toInt else 2
    val spark = new SparkContext(args(0), "SortByKey Test")
    val file = spark.textFile(args(1), slices).map(line => (line.split(" ")(0), line.split(" ")(1).toInt))
 
    val group = file.groupByKey()//收集
 
    val sortPairs = group.map{p =>
      val sortArray = p._2.sortWith(_ < _)//排序
      (p._1, sortArray)
    }
    //验证排序效果
    val first = sortPairs.first()
    println("key:"+first._1)
    println("value:"+first._2)
    first._2.foreach(println)
  }
}
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值