spark
爱吃芝麻
没有永久的记忆,只有不忘的博客
展开
-
spark Straming介绍
目录1sparkstreaming介绍1.1背景1.2SparkStreaming设计1.3SparkStreaming与Storm的对比现在的事实是--->twitter跳槽过来的同事说,现在他们内部已经不使用storm了,转而使用SparkStreaming,可见SparkStreaming正渐渐成为主流2架构及运行流程...原创 2020-02-05 20:35:33 · 572 阅读 · 1 评论 -
理解GC-GC对spark的影响
什么是GC垃圾收集 Garbage Collection 通常被称为“GC”,回收没用的对象以释放空间。 GC 主要回收的是虚拟机堆内存的空间,因为new 的对象主要是在堆内存。垃圾收集的算法1)标记 -清除算法标记-清除”(Mark-Sweep)算法,如它的名字一样,算法分为“标记”和“清除”两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收掉所...原创 2020-02-05 11:34:07 · 858 阅读 · 0 评论 -
Spark-Shuffle
Spark-Shuffle理解 对spark任务划分阶段,遇到宽依赖会断开,所以在stage 与 stage 之间会产生shuffle,大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager,也即shuffle管理器。而随着S...原创 2020-02-05 11:24:07 · 374 阅读 · 0 评论 -
BlockManager分析
BlockManager分析 BlockManager 是一个嵌入在 spark 中的 key-value型分布式存储系统。它分为master和slave。 Driver 端 是BlockManagermaster;Executor 节点 是BlockManagerslave; BlockManager 在一个 spark 应用中作为一个本地缓存运...原创 2020-02-05 11:14:23 · 190 阅读 · 0 评论 -
spark 内存管理
spark 内存管理 Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution(运行内存)和storage(存储内存),前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存; 在Spark 1.5和之前版本里,运...原创 2020-02-05 11:08:07 · 252 阅读 · 0 评论 -
spark 组成及运行大概 流程
spark 组成及运行大概 流程Driver:运行应用的的main函数,提交任务,下发计算任务。ClusterManager:资源管理,在独立的模式(standalone)模式下是master ,在yarn是ResouceManagerWork:计算工作节点,上报自己的资源情况,启动和管理ExecuterExecutor:执行器,是某个应用运行在work节点上的一个进程,负...原创 2020-02-05 10:53:55 · 164 阅读 · 0 评论 -
Spark RDD理解
RDD设计是整个Spark中最为核心的设计理念,理解了RDD的设计之后自然而然就可以理解Spark为什么要这么设计,首先呢我们要先从Spark和Hadoop的渊源说起。Spark&HadoopHadoop在之前几年是非常火的,统领了大数据分析将近十年的浪潮,但是从2015年之后,整个Hadoop市场在逐渐萎缩,取而代之的是Spark市场逐渐扩张,同样是做批处理为何Spark要比Ha...原创 2020-02-04 11:32:55 · 122 阅读 · 0 评论 -
spark概述
目录1spark概述1.1Spark产生的背景1.2什么是Spark1.3Spark历史1.4为什么要用Spark1.5Spark对比Hadoop1.6Spark对比MapReduce2spark生态3Spark应用场景1 spark 概述1.1 Spark产生的背景基于mapreduce的一些缺点,列如只有m...原创 2020-02-04 11:27:20 · 319 阅读 · 0 评论