Spark API 之 countByValue

java面试题网站:www.javaoffers.com

countByValue():根据rdd中的元素值相同的个数。返回的类型为Map[K,V],  K : 元素的值,V :元素对应的的个数

demo1:

val a = sc.parallelize(List("a","b","c","d","a","a","a","c","c"),2);

a.countByValue(); 输出的结果为:

scala.collection.Map[String,Long] = Map(d -> 1, b -> 1, a -> 4, c -> 3);

demo2:  为了区别countByKey()

val a = sc.parallelize(List( ("a",1) ,  ("a",1)  ,  ("b",1)  ,  ("c",1)    ,("d",1)  ));

a.countByValue();输出的结果为:

Map[(String, Int),Long] = Map( (b,1) -> 1,  (d,1) -> 1,  (a,1) -> 2,   (c,1) -> 1)

countByValue()函数与tuple元组中的(k,v)中的v 没有关系,这点要搞清楚,countByValue是针对Rdd中的每一个元素对象,

而 countByKey 主要针对的事tuple(k,v)对象,并且与k 是有关系的,countByKey根据tuple(k,v)中的 k 进行统计的。使用的时候要区分。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值