spark
QAQ_0v0
这个作者很懒,什么都没留下…
展开
-
spark内核解析 下
spark内核解析Spark 任务调度机制Spark任务提交流程Spark任务调度概述Spark Stage级调度Spark Task级调度调度策略本地化调度失败重试与黑名单机制Spark Shuffle解析Shuffle的核心要点ShuffleMapStage与ResultStageShuffle中的任务个数reduce端数据的读取HashShuffle解析SortShuffle解析Spark 内存管理内存空间分配存储内存管理RDD的持久化机制RDD的缓存过程淘汰与落盘执行内存管理Spark 核心组件解析原创 2020-11-18 21:40:58 · 133 阅读 · 0 评论 -
spark内核解析 上
spark内核解析Spark 内核概述Spark核心组件回顾DriverExecutorSpark通用运行流程概述Spark 部署模式Standalone模式运行机制Standalone Client模式Standalone Cluster模式YARN模式运行机制YARN Client模式YARN Cluster模式Spark 通讯架构Spark通信架构概述Spark通讯架构解析Spark 内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Sp原创 2020-11-17 20:01:05 · 150 阅读 · 0 评论 -
sparkStreaming的数据源与容错性
sparkStreaming的数据源与容错性数据源基本数据源文件数据源自定义数据源RDD队列高级数据源flume数据源Apache Kafka数据源容错检查点机制驱动器程序容错工作节点容错接收器容错处理保证数据源基本数据源Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。每个接收器都以 Spark 执行器程序中一个长期运行的任务原创 2020-11-15 20:11:08 · 200 阅读 · 0 评论 -
SparkStreaming基本概述
SparkStreaming基本概述概述特点原理与架构原理实时性架构概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数原创 2020-11-14 19:47:38 · 283 阅读 · 0 评论 -
DataSet的介绍以及常用操作
DataSet的介绍以及常用操作概念DataFrame、DataSet、RDD的区别创建DataSet第一种方式创建DataSet第二种方式创建DataSet第三种方式创建DataSetDataFrame与DataSet互相转换概念DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了Spark SQL优化的执行引擎。DataSet可以通原创 2020-11-12 19:39:13 · 1880 阅读 · 0 评论 -
sparkSQL
Spark SQLSpark SQL概述特点RDD以及DataFrame以及DataSetRDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别RDD:DataFrame:Dataset:DataFrame常用操作DSL风格语法SQL风格语法Spark SQL概述Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API,Spark SQL包含了对结构化数据和在其原创 2020-11-11 20:04:12 · 163 阅读 · 0 评论 -
RDD的依赖关系、缓存, DAG的生成以及shuffle的过程
RDD的依赖关系、缓存, DAG的生成以及shuffle的过程RDD的依赖窄依赖宽依赖Lineage(血统)RDD的缓存RDD缓存方式Spark RDD CacheRDD cache使用cache和persist的区别DAG的生成以及shuffle的过程什么是DAGshuffle的过程SortShuffleManager基本介绍sortShuffle的普通机制Sort shuffle的bypass机制RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency原创 2020-11-10 20:02:21 · 267 阅读 · 0 评论 -
spark当中的RDD
spark当中的RDDRDD基本概念什么是RDDRDD特点分区只读依赖缓存checkpointRDD的创建以及操作方式RDD基本概念什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Datase原创 2020-11-09 19:59:29 · 130 阅读 · 0 评论 -
spark任务提交以及spark-shell使用
spark任务提交以及spark-shell使用spark任务提交说明spark任务提交说明一旦打包好,就可以使用bin/spark-submit脚本启动应用了. 这个脚本负责设置spark使用的classpath和依赖,支持不同类型的集群管理器和发布模式:bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --co原创 2020-11-07 21:23:13 · 641 阅读 · 0 评论 -
spark基础入门
spark基础入门概述Spark特点spark的架构模块spark的主要架构模块介绍spark的运行角色介绍spark的运行模式spark on yarn 的两种任务提交模式client模式提交任务cluster模式提交任务概述Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再原创 2020-11-06 19:24:39 · 385 阅读 · 1 评论