![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
在下蔡江琪
这个作者很懒,什么都没留下…
展开
-
spark-job逻辑图
Job逻辑执行图 典型的Job逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 1.从数据源(可以是本地file,内存数据结构, HDFS,HBase等)读取数据创建最初的RDD。 2.对RDD进行一系列的transformation()操作,每一个transformation()会产生一个或多个包含不同类型RDD。 3.对最后的finalRDD进行action()操作,每个...转载 2019-08-24 11:27:35 · 149 阅读 · 0 评论 -
spark搭建阿里云集群
因为现阶段使用到了spark,所以就想搭建spark集群平台在阿里云上,网上找了很多资料,发现每一个人写的都不太一样,试过几次发现搭建不成功,于是自己慢慢琢磨,总结他们的经验,最后自己成功搭建,写下此篇博客,防止以后再次需要搭建时遇到问题,以下为搭建步骤。 hadoop、scala集群安装成功 下载安装 官网下载地址:http://spark.apache.org/downloads.htm...转载 2019-08-24 19:10:45 · 664 阅读 · 0 评论 -
spark核心RDD-combineByKey方法解析
首先 先来看看官方文档 combineByKey[C](createCombiner: (V) ⇒C,mergeValue: (C,V) ⇒C,mergeCombiners: (C,C) ⇒C,numPartitions:Int):RDD[(K,C)] 简单的解释下3个重要的函数参数: createCombiner: V => C ,这个函数把当前的值作为参数,...原创 2019-08-21 18:19:46 · 210 阅读 · 0 评论 -
spark,代码实现flatMap报错:missing parameter type
这里rdd1的类型是None, 所以我们需要类型转换一下,默认是JAVARDD[String]类型原创 2019-08-23 15:03:32 · 2547 阅读 · 0 评论 -
spark中groupByKey、reduceByKey与sortByKey
groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),("fly",(1))] reduceByKey把相同的key的数据聚合到一起并进行相应的计算...转载 2019-09-25 19:07:19 · 517 阅读 · 0 评论