Spark
文章平均质量分 96
最重要的实时分析引擎
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
-
五-中, Spark 算子 吐血总结(转化+行动算子共三十七个)
文章目录五-中, Spark 算子吐血总结5.1.4.3 RDD 转换算子(Transformation)1. Value类型1.1 `map`1.2 `mapPartitions`1.3 `mapPartitionsWithIndex`1.4 `flatMap`1.5 `glom`1.6 `groupBy`1.7 `filter`1.8 `sample`1.9 `distinct`1.10 `coalesce`1.11 `repartition`1.12 `sortBy`2. 双Value类型2.13 `原创 2022-03-09 19:37:38 · 2156 阅读 · 0 评论 -
五-上, Spark RDD 概述,五大属性,执行原理
五, Spark 核心编程5.0 一个简单的分布式计算程序先通过一个简单🌰了解一下什么是分布式计算在了解了分布式计算大概是个什么情况后, 我们来学习SparkSpark计算框架为了能够进行高并发和高吞吐的数据处理, 封装了三大数据结构, 用于处理不同的应用场景,分别是:- RDD: 弹性分布式数据集 - 累加器: 分布式共享只写变量 - 广播变量: 分布式共享只读变量 数据结构: 计算机存储和组织数据的方式5.1 RDD (数据和逻辑, 最小的计算单元)RDD: 代表着原创 2022-03-05 21:51:51 · 2277 阅读 · 1 评论 -
四, Spark运行架构
四, Spark 运行架构4.1 整体架构Spark框架的核心是一个计算引擎, 整体来说, 它采用了主-从master-slave的结构下图是Spark执行时的基本结构,Driver表示master: 负责管理整个集群中的作业任务调度Executor是slave: 负责实际执行任务Spark Apllication的运行架构由两部分组成: Driver program(SparkContext)和Excutor, Spark Application一般都是在集群中运行, 比如Sp原创 2022-03-02 19:43:56 · 1586 阅读 · 1 评论 -
Spark初探: 一步步用Scala写一个简易分布式计算程序
在学习Spark, 深入分布式计算之前, 我们有必要先体会一下分布式计算的特性和简单原理;那么我们基于Java去理解, 实现分布式的前提是什么呢? 当然是各个主机之间的通信, 即Socket网络通信, 由于Scala引入了大量的Java类库, 自然的也就类似于Java实现Socket通信了;第一步, Scala实现服务器端 Excutor.scalapackage simpledistributeddemoimport java.io.{InputStream, ObjectInput, .原创 2022-02-28 23:26:09 · 1719 阅读 · 1 评论 -
一二, Spark概述和快速入门
一, Spark概述1.1 什么是SparkSpark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎;1.2 Spark && HadoopSParkHadoop1.Scala开发, 快速通用,扩展的大数据分析引擎1. Java开发, 在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架2. Spark Core 提供了Spark最基础,核心的内容2. HDFS基于GFS理论, 分布式存储数据3. SpaekSQL 是Spar原创 2022-02-27 10:06:29 · 1060 阅读 · 0 评论 -
三, Spark 四种运行环境配置总结
三, Spark 运行环境Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s, Windows模式等常用模式3.1 Local模式Local模式被定义为不需要其他任何节点资源, 在本地执行Spark代码的环境,也叫单机模式, 一般用于教学,调试, 演示等等,配置文件设置方法: conf.setMaster[local[K]]1. 解压相关的依赖文件将 spark-3.0.0-原创 2022-02-27 10:50:18 · 3126 阅读 · 3 评论