spark
文章平均质量分 56
星茗
没有亲身经历过世间的人情冷暖,又何来感同身受
展开
-
spark集群搭建
spark集群搭建1.Standalone集群搭建与Spark on Yarn配置Standalone:Standalone集群是Spark自带的资源调度框架,支持分布式搭建。搭建建议: Standalone节点数为3台,1台master,2台worker。 虚拟机中每台节点的内存至少给2G和2个核(core) 这样才能保证后期Spark基于Standalone的正常运行。2.搭建Standalone集群的步骤:1)下载安装包,解压1.登录Spark官网下载Spark,官网网址:spar原创 2021-08-04 17:41:09 · 226 阅读 · 0 评论 -
sparkCore-核心、算子、持久化算子
一、Spark核心1.RDD1)概念:RDD(Resilient Distributed Dateset),弹性分布式数据集2)RDD的五大特性1.RDD是由一系列的partition组成的。2.函数是作用在每一个partition(split)上的。3.RDD之间有一系列的依赖关系。4.分区器是作用在K,V格式的RDD上的。5.RDD提供一系列最佳的计算位置。3)RDD的理解图:4)注意:1.textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默原创 2021-08-03 17:25:28 · 244 阅读 · 0 评论 -
Spark初识及Spark maven项目搭建
一、Spark初始1.什么是Spark?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop Mapreduce所具有的有点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。2原创 2021-08-03 10:37:01 · 800 阅读 · 0 评论