![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
溜三丝耶
毫无才华,纯靠颜值,为所欲为
展开
-
Spark Streaming
[toc]Spark StreamingSpark Streaming 概述Spark Streaming 是什么Spark Streaming 使得构建可扩展的容错流应用程序变得更加容易Spark Streaming 无法实现真正的流式数据处理。使用了微批次数据处理。Spark Streaming 是一个准实时数据处理引擎。实时:数据处理的延迟在毫秒级进行响应离线:数据处理的延迟在小时,天,月,年进行响应批处理:数据处理的方式流式:数据处理的方式Spark原创 2020-06-19 00:05:50 · 558 阅读 · 1 评论 -
Spark内核解析(三) Task级调度(源码解析)
文章目录Spark内核解析(三) Task级调度(源码解析)DAGScheduler -->TaskSchedulerTaskScheduler提交任务将TaskSetManager加入到调度队列RPC通知自身启动任务资源提供相关运行任务Executor执行任务总结Spark内核解析(三) Task级调度(源码解析)前面有篇博文已经讲解了基本的任务调度机制,这篇博文的目的是剖析Task级调度,来更好的理解Driver和Executor之间任务的分发。Task级调度比Stage级调度要复杂很多,这原创 2020-06-18 23:20:09 · 391 阅读 · 0 评论 -
Spark内核解析(二) 任务调度机制
文章目录Spark内核解析(二) 任务调度机制Spark 任务调度概述Spark Stage级调度涉及到Job提交的相关方法调用流程图以WordCount来举个例子小结Spark Task级调度TaskSetManager的结构调用流程图调度策略FIFO 调度策略FAIR 调度策略本地化调度失败重试与黑名单机制总结Spark内核解析(二) 任务调度机制在上一篇博文中,我们讲解了Spark Yarn-Cluster模式下的任务提交流程https://blog.csdn.net/Sarahdsy/art原创 2020-06-18 23:17:18 · 421 阅读 · 0 评论 -
Spark内核解析(一) Spark向Yarn提交应用(源码解析)
文章目录Spark内核解析(一) Spark向Yarn提交应用(源码解析)执行脚本提交任务执行提交操作解析参数提交使用提交的参数,运行child class的main方法准备提交环境通过类名加载这个类反射创建类的对象并进行类型转换运行childMainClass的start方法运行YarnClusterApplication封装参数创建客户端对象运行 - 提交应用配置JVM的启动参数向Yarn提交应用运行ApplicationMaster启动用户的应用线程阻塞,等待对象(SparkContext)的返回注册原创 2020-06-17 20:37:19 · 2110 阅读 · 6 评论 -
SparkSQL 核心编程
文章目录SparkSQL 核心编程新的起点DataFrame创建DataFrame从Spark数据源进行创建从RDD进行转换从Hive Table进行查询返回SQL语法DSL语法RDD转换为DataFrameDataFrame转换为RDDDataSet创建DataSetRDD转换为DataSetDataSet转换为RDDDataFrame和DataSet转换RDD,DataFrame,DataSet 三者的关系三者的共性三者的区别三者的互相转换IDEA开发SparkSQL用户自定义函数UDFUDAF弱类型原创 2020-06-13 19:23:01 · 721 阅读 · 1 评论 -
SparkRDD - 基础编程
SparkRDD - 基础编程RDD序列化闭包检测从计算的角度,算子以外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭合的效果。如果使用的算子外的数据无法序列化,就意味着无法传值给Executor端执行,就会发生错误。所以,需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。Scala2.12版本后闭包编译方式发生了改变。源码说明我们执行col原创 2020-06-09 20:44:05 · 717 阅读 · 3 评论 -
Spark核心编程(RDD行动算子)-action
文章目录RDD行动算子reducecollectcountcountByValuefirsttaketakeOrderedaggregatefoldcountByKeysava相关算子foreachRDD行动算子所谓的行动算子,其实不会再产生新的RDD,而是触发作业的执行。行动算子执行后,会获取到作业的执行结果。转换算子不会触发作业的执行,只是功能的扩展和包装。Spark的行动算子执行时,会产生Job对象,然后提交这个Job对象。reduce函数签名:def reduce(f: (T,原创 2020-06-07 08:14:15 · 491 阅读 · 0 评论 -
Spark核心编程(RDD转换算子)之聚合算子
文章目录RDD转换算子 之 聚合算子reduceByKey说明案例groupByKey说明案例aggregateByKey说明案例foldByKey说明案例combineByKey说明案例聚合算子小结有预聚合reduceByKeyaggregateByKeyfoldByKeycombineByKey无预聚合groupByKeyRDD转换算子 之 聚合算子聚合算子可以说是Spark计算里面的核心,所以搞懂底层的实现很有必要。reduceByKey说明可以将数据按照相同的key对value进行聚合原创 2020-06-06 20:27:39 · 1023 阅读 · 1 评论