Spark
ForeverSunshine
CSDN越来越难用了
展开
-
Spark transformation操作
对一个集合调用SparkContext的parallelize方法,集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。 使用Scala实现如下: 1、map:将集合中每个元素乘以2 object TransformationOperation { def main(args: Array[String]):Unit = { val conf = new SparkCo原创 2017-03-19 01:10:24 · 980 阅读 · 0 评论 -
Spark RDD持久化策略
RDD持久化Spark一个重要的特性是将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。 要持久化一个RDD,只要调用其cach原创 2017-03-19 13:52:35 · 966 阅读 · 0 评论 -
Spark共享变量
默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Variable会将使用到的变量,仅仅为每原创 2017-03-19 22:51:45 · 2003 阅读 · 0 评论