Spark
Spark框架的简介、架构原理和使用操作等
PassionZheng
这个作者很懒,什么都没留下…
展开
-
Spark入门(二)运行模式及安装部署
上一节对Spark进行大致的介绍,包括其历史、特点以及各内置模块等方面内容,书归正题,本节就对Spark框架的安装部署进行大致的介绍。 部署Spark集群大体上分为两种模式:单机模式与集群模式。大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境,但是在生产环境中,并不会使用单机模式。因此,后续会直接按照集群模式部署Spark集群。 Spark目前支持 4 种运行模式: 1)Local模式:在本地部署单个Spark服务(适用于测试) 2)Standalone模式:并非是单节点,而是使用Spark自原创 2020-05-19 23:24:42 · 737 阅读 · 0 评论 -
Spark Action行动算子
Spark Action行动算子1.reduce():聚合2.collect():以数组的形式返回数据集3.count():返回RDD中元素个数4.countByKey():统计每种key的个数5.first():返回RDD中的第一个元素6.take():返回由RDD前n个元素组成的数组7.takeOrdered():返回该RDD排序后,前n个元素组成的数组8.aggregate()9.fold():aggregate的简化版10.save相关的算子11.foreach():遍历RDD中每一个元素*coll原创 2020-05-14 15:58:32 · 530 阅读 · 0 评论 -
Spark Transformation转换算子
RDD转换算子整体上分为:Value类型、双Value类型和Key-Value类型 一.Value类型 顾名思义是对单个value值进行运算的算子类型。下面主要从函数签名、功能、案例+图解三个方法介绍这几类算子。 1.map():映射 1)函数签名: def map[U: ClassTag](f: T => U): RDD[U] 2)功能说明 参数f是一个函数,它可以接收一个参数。当某个RDD执行map方法时,会遍历该RDD中的每一个数据项,并依次应用f函数,从而产生一个新的RDD。即,这个新RD原创 2020-05-14 14:37:47 · 1060 阅读 · 0 评论 -
Spark入门(一)概述
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 关于Spark首先抛出几个问题: Spark是什么? Spark的优势?(存在价值) Spark主要功能? 剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。 Spark是什么 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapRed原创 2020-05-10 00:16:59 · 1682 阅读 · 0 评论