![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
lisery_nj
佛系
展开
-
spark-spark集群部署
1.scala部署解压scalatar –zxvf scala-2.12.0.tgz配置环境变量vi /etc/profileexport SCALA_HOME=/usr/tools/scala-2.12.0export PATH=$PATH:$SCALA_HOME/bin使环境变量生效source /etc/profile检查安装成功: scala ...原创 2018-09-07 13:54:46 · 125 阅读 · 0 评论 -
Spark-combineByKey
1.前言combineByKey是使用Spark无法避免的一个方法,总会在有意或无意,直接或间接的调用到它。从它的字面上就可以知道,它有聚合的作用,对于这点不想做过多的解释,原因很简单,因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。combineByKey是一个高度抽象的聚合函数,可以用于数据的聚合和分组,由它牵出的shuffle也是...转载 2019-03-06 11:25:45 · 348 阅读 · 0 评论 -
Spark-Spark任务中job,stage,task之间的关系
1. 什么是jobJob简单讲就是提交给spark的任务。2. 什么是stageStage是每一个job处理过程要分为的几个阶段。3什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。3. Job和stage和task之间有什么关系Job----> 一个或多个stage--->...转载 2019-02-26 15:32:29 · 735 阅读 · 0 评论 -
Spark-reduceByKey和groupByKey
大数据处理中有一个典型的例子WordCount,类似与Hello World的作用,map阶段主要是将单词转换为(word,1)的形式,在reduce阶段则是将Key值相同的1累加求和,最终得到的结果就是单词的count数。假设map的结果为(word,(m,n))如果按照key值将对应的列累加起来呢?比如经过map的数据集是这样的("happy",1,3),("hello",2,6),("hap...转载 2019-02-27 15:04:45 · 418 阅读 · 0 评论 -
Spark-reduce和reduceByKey
1.reducereduce(binary_function)reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = sc.parallelize(1 to 5)c.reduce((x, y) => x + y)结果为:15流...原创 2019-02-27 14:59:57 · 1162 阅读 · 0 评论 -
编译spark使cdh支持sparksql
我的大数据集群环境为cdh5.11.1,在该环境中spark的版本为spark-1.6.0。CDH从5.5开始Spark distro不带Thrift Server分布式SQL引擎、以及spark-sql脚本。Thrift Server是Spark异构数据大融合愿景重要入口之一,spark-sql脚本是测试SQL利器,但CDH优先推自家impala, SparkSQL虽然不是Spark的主要功能...原创 2019-01-08 11:16:29 · 3514 阅读 · 0 评论 -
spark-机器学习算法库
Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任务的启动等工作,这回导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算,多个步骤计算直接在内存中...原创 2018-10-31 15:16:16 · 4272 阅读 · 0 评论 -
spark-测试cdh集群中spark是否正常运行
1.本地模式[root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples.jar 1018/10/29 14:39:08...原创 2018-10-29 15:03:09 · 2126 阅读 · 0 评论 -
spark-使用cloudera manager部署的spark测试运行mllib的例子
1.测试cdh集群中spark是否正常运行[root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples.jar 1018...原创 2018-10-29 14:35:38 · 1480 阅读 · 0 评论 -
spark-RDD基础
1.RDD概念什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD属性...转载 2018-09-07 16:31:06 · 205 阅读 · 0 评论 -
spark-一个简单的例子--使用spark统计单词数
1.java版本// 创建一个Java版本的Spark ContextSparkConf conf = new SparkConf().setAppName("wordCount");JavaSparkContext sc = new JavaSparkContext(conf);// 读取我们的输入数据JavaRDD<String> input = sc.textFil...原创 2018-09-07 15:36:03 · 1688 阅读 · 0 评论 -
spark-spark核心概念简介
每个 Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的 main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。 驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。shell 启动时已经自动创建了一个 SparkCon...转载 2018-09-07 15:02:40 · 738 阅读 · 0 评论 -
spark-spark是什么
Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算,因而更快...原创 2018-09-07 13:59:01 · 4745 阅读 · 0 评论 -
Spark-Spark函数详解RDD转换与操作
1.RDD简介RDD:弹性分布式数据集,是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作,一个RDD代表一个分区里的数据集。RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作; At...转载 2019-03-06 16:03:00 · 884 阅读 · 0 评论