java面试题网站:www.javaoffers.com
countByValue():根据rdd中的元素值相同的个数。返回的类型为Map[K,V], K : 元素的值,V :元素对应的的个数
demo1:
val a = sc.parallelize(List("a","b","c","d","a","a","a","c","c"),2);
a.countByValue(); 输出的结果为:
scala.collection.Map[String,Long] = Map(d -> 1, b -> 1, a -> 4, c -> 3);
demo2: 为了区别countByKey()
val a = sc.parallelize(List( ("a",1) , ("a",1) , ("b",1) , ("c",1) ,("d",1) ));
a.countByValue();输出的结果为:
Map[(String, Int),Long] = Map( (b,1) -> 1, (d,1) -> 1, (a,1) -> 2, (c,1) -> 1)
countByValue()函数与tuple元组中的(k,v)中的v 没有关系,这点要搞清楚,countByValue是针对Rdd中的每一个元素对象,
而 countByKey 主要针对的事tuple(k,v)对象,并且与k 是有关系的,countByKey根据tuple(k,v)中的 k 进行统计的。使用的时候要区分。