Spark API 之 countApproxDistinctByKey

countApproxDistinctByKey(double)该函数根据精确度double,来计算相同key的大约个数。demo:    val a = sc.parallelize(List("wang","li",&am...

2018-06-28 17:33:51

阅读数:23

评论数:0

Spark API 之 takeSample(boolean, sampleNum,seed) 详解

takeSample(boolean, sampleNum,seed):该函数是抽取随机数。前言:很重要,不然你不会理解seed的作用。用算法进行算出的结果为伪随机数,因为算法是固定的,只是我们在改变其参数而已,要知道在java中的Random类产生的数就是伪随机数,底层有一套自己的算法,该算法依...

2018-06-27 17:11:01

阅读数:148

评论数:0

Spark API 之 countApproxDistinct

countApproxDistinct(jdz):该函数是用来计算去重后的值的大约个数, jdz: 该参数是用来规定值之间的相似度(精度值),值与值之间的相似度(精度)达到 jdz, 则将其看作是一样的值。jdz越小说明值与值之间越相似。控制在 0到0.4(不包括)之间。demo1:       ...

2018-06-27 14:25:03

阅读数:47

评论数:0

Spark API 之 count

count() 函数: 返回在Rdd中的所有元素(与分区partition没关系)demo:       val rdd1 = sc.parallelize(List("a","b","c"...

2018-06-27 13:57:40

阅读数:120

评论数:0

Spark API 之 coalesce 重新分区(partition)

coalesce(numPartition,boolean):                 numPartition: 代表要从新分 多少个区(partition)                boolean         :   代表   宽依赖(true)和 窄依赖(false),...

2018-06-26 14:41:35

阅读数:23

评论数:0

Spark API 之 cartesian

该函数是求笛卡尔及很简单的   demo :val  a = sc.parallelize(List(2,3,4))val b = sc.parallelize(List(5,6,7))a.cartesian(b) 的结果为:                       Array[(Int, I...

2018-06-26 11:22:20

阅读数:51

评论数:0

Spark API 之 aggregate(a)(fun1,fun2)

aggregate是一个 柯里化函数,首先我们知道一个rdd有可能为多个partition。a: 相对于fun1 作用于每个partition中的元素的第一个元素,即为每个partition增加一个首元素a,  相对于fun2 作用于  每个partition经过fun1后对应的结果 和 a fu...

2018-06-26 10:16:37

阅读数:18

评论数:0

字节换算图表,简单理解二进制与字节的关系

我自己画了一张图

2018-06-26 09:03:48

阅读数:113

评论数:0

Spark API 之 cogroup 使用

tuple1Rdd.cogroup(tuple2Rdd) : 该方法针对的是元组之间的操作(RDD里面的元素是tuple对象,这里我简述为元组),否者无效,该元组是kv 对出现,cogroup方法的操作逻辑是:如果元组的k相同,则收集他们对应的v, 返回的类型为Array[(K, (Iterabl...

2018-06-19 15:33:29

阅读数:204

评论数:0

Scala 中的类继承之 父类带有构造参数

父类class China(var name){}子类class Japan extends China(name="son"){} 注意: 我们查看Scala文件编译后的class文件,然后再通过反编译为Java文件可以看到以下代码: 在Japan的默认构造中...

2018-06-19 14:31:11

阅读数:176

评论数:1

Spark API 之 collectAsMap 使用

collectAsMap 的使用对象必须是Tuple 元组类型,在spark中将元组类型转换为Map类型,应用示例:val a = sc.parallelize(List(2,3,4,5))val b = sc.parallelize(List("a",&...

2018-06-19 11:56:15

阅读数:30

评论数:0

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]的区别

转载自https://blog.csdn.net/u011981433/article/details/50035851

2018-06-19 11:00:27

阅读数:17

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭