spark
文章平均质量分 58
普通网友
这个作者很懒,什么都没留下…
展开
-
spark Transformation 算子
map(func) 通过函数func传递源的每个元素来形成一个新的分布式数据集 val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).foreach(println) print: A1 B2 C3 mapValues mapValues顾名思义就是输入函数应用于RDD中K原创 2018-01-11 19:49:27 · 381 阅读 · 0 评论 -
spark Ation算子
reduce(func) reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。 scala> val c = sc.parallelize(1 to 10) scala> c.reduce((x, y) => x + y) res4: Int = 55 reduceByKey 顾名思义,reduc原创 2018-01-11 20:12:41 · 241 阅读 · 0 评论 -
SparkStreaming之Helloworld
首先,我们将Spark Streaming类的名称和StreamingContext的一些隐式转换导入到我们的环境中,以便将有用的方法添加到我们需要的其他类(如DStream)中。StreamingContext是所有流媒体功能的主要入口点。我们创建一个具有两个执行线程的本地StreamingContext,批处理间隔为10秒。 val sparkConf = new SparkConf()原创 2018-01-12 19:19:22 · 785 阅读 · 0 评论 -
SparkStreaming 高可靠分析
背景 为了理解Spark Streaming提供的语义,让我们记住Spark的RDD的基本容错语义。 1. RDD是一个不可改变的,确定性可重新计算的分布式数据集。每个RDD都会记住在容错输入数据集上使用的确定性操作的谱系来创建它。 1. 如果RDD的任何分区由于工作节点故障而丢失,则可以使用操作沿袭从原始容错数据集重新计算该分区。 1. 假设所有RDD转换都是确定性的,最终转换的RDD中原创 2018-01-13 15:29:42 · 356 阅读 · 0 评论