Spark之Spark Core

最新推荐文章于 2024-04-18 04:54:42 发布

翻斗花园牛爷爷..

最新推荐文章于 2024-04-18 04:54:42 发布

阅读量351

点赞数

文章标签： spark 大数据 hadoop

本文链接：https://blog.csdn.net/qq_46433375/article/details/126532093

版权

一、概念

什么是spark，spark说白了就是一个分布式计算框架，是MapReduce的平替，为了解决MapReduce中无法迭代式计算问题以及基于磁盘IO计算的问题，而在Spark中，它的核心是Spark Core，是学习Spark的第一道关卡，而Spark Core中的核心为RDD。

Spark Core计算数据逻辑

先从数据源将数据加载为Spark的抽象RDD
借助RDD中的函数算子，去实现相应的逻辑操作
结束RDD中的保存算子将数据持久化存储

二、 RDD相关内容

1、 RDD的包括

输入算子：将数据源数据转换为RDD数据集
转换算子：对RDD数据集进行计算并返回一个新的RDD数据集
行动算子：将RDD数据集数据输出出去

注意点：在RDD中存在一种惰性计算机制，如果在一个程序，只有输入/转换算子操作，那么这些算子只会把计算逻辑保存下来，
直到遇到行动算子时才会将前面的转换操作正式执行，保存的计算逻辑链称为血统依赖链

2、 RDD的组成

一组分片：在RDD中一个分片就是一个Task任务，task任务可以并行执行，分片个数我们也可以自行定义，而且在程序运行过程中，分片数也可以动态改变
一个计算分片数据的函数ÿ

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

翻斗花园牛爷爷..

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark之Spark Core

spark Core
复制链接

扫一扫

Spark Core

bingoabin

01-17

17万+

应用场景 Apache Spark 是加州大学伯克利分校的 AMP Labs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计，使得它拥有比 Hadoop 更高的性能（极端情况下可以达到 100x），并且对多语言（Scala、Java、Python）提供支持。其一栈式的设计特点使得我们的学习和维护成本大大地减少，而且其提供了很好的容错解决方案。操作步骤 1.

SparkCore

weixin_42263032的博客

01-10

2710

一、SparkCore spark架构二、SparkSQL 三、SparkStreaming

参与评论您还未登录，请先登录后发表或查看评论

大数据spark core的介绍

leaxning的博客

08-15

802

sparkcore的操作指南Spark是什么原理运行模式基础编程 Spark是什么 1.Spark是什么 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。并且 Spark 目前已经成为 Apache 最活跃的开源项目。 2.Spark特点 2.1 快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. 2.2 易用 Spark 支持 Scala, Java, Python, R 和 SQ

Spark-Core核心算子_spark k-core 算法，零基础学习web前端

最新发布

m0_61331367的博客

04-18

611

要实现自定义分区器，需要继承org.apache.spark.Partitioner类，并实现下面三个方法。numPartitions: Int:返回创建出来的分区数。getPartition(key: Any): Int:返回给定键的分区编号（0到numPartitions-1）。equals():Java 判断相等性的标准方法。这个方法的实现非常重要，Spark需要用这个方法来检查你的分区器对象是否和其他分区器实例相同，这样Spark才可以判断两个RDD的分区方式是否相同。// 设置分区数。

大数据—— Spark Core 知识点整理

Vicky_Tang

09-14

1228

1. Spark 和 Hadoop 相比有什么优势运行速度快： Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。适用场景广泛：大数据分析统计，实时数据处理，图计算及机器学习易用性：编写简单，支持80种以上的高级算子，支持多种语言，数据源丰富，可部署在多种集群中容错性高： ...

Spark基本理解与使用--Spark Core

qq_44528357的博客

11-10

843

spark core 基本理解与使用

sparkcore相关实例

04-08

Spark Core是Apache Spark的核心组件，它是Spark所有其他模块的基础，包括Spark SQL、Spark Streaming和MLlib等。这个压缩包文件“spark-core”很可能包含了与Spark Core相关的代码示例或者文档，帮助用户理解和学习...

SparkCore.docx

12-11

SparkCore是Apache Spark的核心组件，它是Spark大数据处理框架的基础。Spark设计的主要目标是提供一个高效、易用且通用的大数据处理平台，与Hadoop MapReduce相比，Spark在处理迭代计算和交互式数据挖掘方面表现更优...

Spark Core 笔记02

01-07

对最近在看的赵星老师Spark视频中关于SparkCore的几个案例进行总结。目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一：普通方法，不设置分组/分区2. 方法二：设置分组和过滤器3. 方法三：...

Spark Core介绍

02-16

在YARN或Mesos上，Spark作为应用运行在这些资源管理器之上，通过YarnAllocator或MesosClusterDispatcher协调资源。数据源是Spark Core的重要组成部分，它可以读取HDFS、S3、HBase、Cassandra等多种存储系统中的...

大数据技术之Spark优化

04-08

例如，增加 Executor 的数量、每个 Executor 的 CPU core 个数和每个 Executor 的内存量，可以提高 Spark 应用的并行能力和缓存能力，从而提高 Spark 应用的性能。总结 Spark 优化技术是提高 Spark 应用程序性能...

Spark-Core学习知识笔记整理

03-01

Spark-Core文档是本人经三年总结笔记汇总而来，对于自我学习Spark核心基础知识非常方便，资料中例举完善，内容丰富。具体目录如下：目录第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优： 40 1.1调优概述 40 1.2原则一：避免创建重复的RDD 40 1.3原则二：尽可能复用同一个RDD 41 1.4原则三：对多次使用的RDD进行持久化 42 1.5原则四：尽量避免使用shuffle类算子 43 1.6原则五：使用map-side预聚合的shuffle操作 44 1.7原则六：使用高性能的算子 45 1.8原则七：广播大变量 46 1.9原则八：使用Kryo优化序列化性能 47 1.10原则九：优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构组件简介 52 1.2 Spark架构图 54 2 Spark工作机制 54 2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 57 1 Spark运行基本流程 57 2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60

SparkSQL相关知识总结!!!!!!!

Alfie的博客

07-26

413

以上就是今天的内容，本文介绍了SparkSQL的相关应用,这部分的知识是学习Spark并利用Spark来处理大数据相关问题的重中之重.

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））

星光不问赶路人，岁月不负有心人

07-06

467

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））

大数据随记 —— Spark Core 与 RDD 简介

繁依Fanyi的博客

08-27

1598

弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像 MapReduce 等数据流模型的容错特性，能在并行计算中高效地进行数据共享进而提升计算性能。RDD 中提供了一些转换操作，在转换过程中记录了“血统”关系，而在 RDD 中并不会存储真正的数据，只是数据的描述和操作描述。RDD 是只读的、分区记录的集合。RDD 只能基于在稳定物理存储中的数据集和其他已有的 RDD 上执行确定性操作来创建。...

SparkCore 总结

机械工程跑路哥

08-21

1173

Hadoop 用户向 YARN 集群提交应用程序时,提交程序中应该包含ApplicationMaster，用于向资源调度器申请执行任务的资源容器 Container，运行用户自己的程序任务 job，监控整个任务的执行，跟踪整个任务的状态，处理任务失败等异常情况。Spark启动时，Executor节点同时被启动，并且始终伴随整个Spark应用的生命周期，如果发生故障，Spark应用也可以继续执行，会将出错节点上的任务调度到其他Executor节点上继续执行。...............

Spark Core快速入门系列(5) | Spark中job的划分

Knight

08-18

910

当遇到了宽依赖就会产生一个新的阶段我们再多增加一条repartition(宽依赖) 再次查看多了一个stage 总结 job：一个应用中，每碰到一个action，就会起一个job 一个应用可以有多个job stage：阶段. 每碰到一个宽依赖就会在这个job内创建一个新的stage (如果遇到宽依赖的时候，用的分区器和当前一样，则不会起新的) 一个job至少有一个阶段 stage划分是从后向前划分，执行一定是从前往后 task 体系了执行数据分析的并行.

Spark详解（二、SparkCore）

weixin_43285680的博客

12-27

2471

SparkCore是Spark计算引擎的基础，后面的sparksql以及sparkstreaming等，都是基于SparkCore的。这里笔者就开始详细的介绍SparkCore。如果要介绍SparkCore，必须详细介绍一下RDD。一、RDD编程 RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中，我们如果要对数据进行操作，不外乎就是创建RDD对数据进行操作。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交