Spark
大冰的小屋
这个作者很懒,什么都没留下…
展开
-
Spark集群启动后进程的简单介绍
刚开始学习Spark,首先看一下Spark集群启动之后都会产生哪些进程,方便查看集群是否启动正常。首先介绍下我的Spark集群是以Hadoop的HDFS作为分布式文件存储系统,资源管理系统既可以使用Hadoop的Yarn,也可以使用Spark自带的Standalone模式,当然也可以使用其他的资源管理系统,例如Mesos、EC2等。我的测试集群是一个master节点和4个worker节点启动HDFS原创 2016-07-24 10:59:10 · 9402 阅读 · 0 评论 -
Spark第一个程序开发 wordcount
这里介绍了程序运行在本地模式和Standalone模式两种方式package com.spark.appimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Administrator on 2016/7/24 0024. */ object WordCount { def main(args: Array[S原创 2016-07-24 12:17:08 · 21534 阅读 · 6 评论 -
Spark Transformation和Action算子速查表
Transformation算子 Transformation算子 作用 map(func) 返回一个新的分布式数据集,其中每个元素都是由源RDD中每一个元素经过func函数转换得到的 filter(func) 返回一个新的数据集,其中包含的元素来自源RDD中元素经过func函数过滤后的结果(func函数返回true的结果) flatMap(func) 类似于map,原创 2016-08-20 16:31:21 · 1595 阅读 · 0 评论 -
Spark常用的Transformation算子的简单例子
Spark的常用Transformation算子有map、filter、flatMap、reduceByKey、groupByKey、join、leftOuterJoin、rightOuterJoin、cogroup等算子。在这里进行的简历例子的使用,以后随着学习的深入需要第每个算子深入分析。package com.imfimport org.apache.spark.{SparkContext,原创 2016-08-13 18:16:55 · 2847 阅读 · 0 评论 -
Spark的Action算子的简单例子
package com.spark.Appimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Administrator on 2016/8/14 0014. */ object Actions { def main(args: Array[String]) { val conf = new Spar原创 2016-08-14 11:21:19 · 975 阅读 · 0 评论 -
Spark 使用sortByKey进行二次排序
Spark的sortByKey API允许自定义排序规则,这样就可以进行自定义的二次排序、三次排序等等。 先来看一下sortByKey的源码实现:def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)def sortByKey(ascending: Boolean): JavaPairRDD[K, V] = { val comp = com原创 2016-08-15 07:33:48 · 5683 阅读 · 0 评论