spark
文章平均质量分 50
司马看山
人生苦短,我用python
展开
-
Spark Streaming自定义接收器
首先从实现Receiver (Scala doc, Java doc)开始。自定义接收方必须通过实现两个方法来扩展此抽象类onStart():开始接收数据时要做的事情。onStop():停止接收数据的操作。双方onStart()并onStop()不能无限期地阻塞。通常,onStart()将启动负责接收数据的线程,并onStop()确保停止这些接收数据的线程。接收线程也可以使用isStopped(),一个Receiver方法,以检查他们是否应该停止接收数据。接收到数据后,可以通过调用将该数据存储在Sp原创 2021-01-09 12:26:59 · 161 阅读 · 0 评论 -
Scala-懒加载
惰性函数当函数返回值被声明为lazy时,函数的执行将被推迟,直到我们首次对此取值,该函 数才会执行。这种函数我们称之为惰性函数,在Java的某些框架代码中称之为懒加载 (延迟加载)。package demosobject LazyDemo01 { def sum(n1:Int,n2:Int): Int ={ println("Sum() is Working") return n1+n2 } def main(args:Array[String]): Unit ={原创 2020-12-06 21:29:23 · 487 阅读 · 0 评论 -
flatMap(func)
类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)scala> val sourceFlat = sc.parallelize(1 to 5)sourceFlat: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at <console>:24scala> sourceFlat.collect()res11: Array原创 2020-12-02 22:13:21 · 281 阅读 · 0 评论