Spark
文章平均质量分 92
程序胖
这个作者很懒,什么都没留下…
展开
-
Spark(四): Spark 核心编程(上)
文章目录Spark核心编程RDDRDD 核心属性RDD 执行原理RDD 基础编程RDD 创建RDD 并行度与分区RDD 转换算子 Spark核心编程 * Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: * RDD:弹性分布式数据集 * 累加器:分布式共享只写变量 * 广播变量:分布式共享只读变量 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数原创 2021-12-21 11:21:53 · 455 阅读 · 0 评论 -
Spark(三): Spark 运行架构
文章目录Spark运行架构 Spark运行架构 Spark 框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。原创 2021-11-15 11:47:22 · 2348 阅读 · 0 评论 -
Spark(二): Spark 运行环境
文章目录Spark运行环境Linux环境下运行本地SparkStandalone 模式Yarn模式K8S & Mesos 模式Windows 模式 Spark运行环境 Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来看看不同环境运行的spark Linux环境下运行本地Spark 所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,原创 2021-11-15 09:24:49 · 911 阅读 · 0 评论 -
Spark(一):基础
Spark 概述 什么是Spark Spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎 Spark Core 中提供了 Spark 最基础与最核心的功能 Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。 Spark Streaming 是 Spark 平台上针对实时数据进行流式计算原创 2021-11-10 17:32:22 · 1923 阅读 · 0 评论