Spark
文章平均质量分 86
olifchou
这个作者很懒,什么都没留下…
展开
-
二、Spark内核之通讯架构
Spark内核系列目录一、Spark内核的运行机制文章目录Spark内核系列目录前言一、Spark核心组件1.Driver2. Executor3. Spark运行流程二、Spark部署方式三、YARN模式运行机制1、YARN Cluster模式2、YARN Client模式总结前言Spark 2.x通信架构均使用Netty通讯框架作为内部通讯组件,采用了Actor模型的设计。一、Spark核心组件1.DriverDriver是Spark的驱动器节点,用于执行Spark任务中的main原创 2021-02-24 20:53:41 · 276 阅读 · 1 评论 -
一、Spark内核之运行机制
深究Spark文章目录深究Spark前言一、Spark核心组件1.Driver2. Executor2.读入数据总结前言Spark内核一般指Spark的核心运行机制,包括核心组件的运行机制、任务调度机制、内存管理机制、核心功能运行原理。一、Spark核心组件1.DriverDriver是Spark的驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将用户程序转化为作业(Job)在Executor之间调度任务(Ta原创 2021-02-21 15:37:35 · 709 阅读 · 0 评论 -
Spark本地化原则
本地化原则一、为什么要本地化?二、数据本地化级别三、Spark优化总结一、为什么要本地化?数据本地化对spark的应用程序性能具有重要的影响,当数据与计算该数据的代码在一起,那应用的性能是很高的,如果数据与代码不在同一个地方,那么就要将代码移动到数据所在的节点中,因为移动代码相比较于移动数据速度要快得多。Spark正是通过这样的原则来分配调度task的。二、数据本地化级别数据本地化的五个级别,性能递减:PROCESS_LOCAL:进程本地化,性能最佳。数据与计算的代码在同一个jvm进程原创 2021-02-19 21:03:09 · 384 阅读 · 0 评论 -
Spark常用算子介绍
一、简介Spark主要包含Transformation和Action两种算子。Transformation算子Transformation类算子一般都是懒操作的,即该过程并不提交Job作业,而是等到Action算子才会提交作业。主要包括:map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sort原创 2020-11-13 14:21:06 · 5926 阅读 · 0 评论 -
Spark集群架构介绍
Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语Apache Spark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据Spark Certified Experts显示,在内存中运行时,Sparks性能要比Hadoop快一百倍,在磁盘上运行,Sparks比Hadoop快达十倍。在本篇博客中,我将会为你简单介绍一下Spark的底层基础架...翻译 2021-02-19 12:47:18 · 1655 阅读 · 0 评论