spark
lspshun
这个作者很懒,什么都没留下…
展开
-
Spark的调度系统
一,简介Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。其次,就是每个Spark Application都会有若干Jobs(Spark Actions),然后这些job是以何种机制,在Executor上执行的,也是需要一个调度管理的机制,该层面调度也可...原创 2019-03-27 15:30:12 · 255 阅读 · 0 评论 -
监控spark应用程序的方法
目前有好几种监控spark应用程序的工具:web UIs,指标系统和外部监控仪。一,web界面1,界面的基本介绍每一个Spark应用程序都会启动一个spark ui,默认端口是4040端口,用于展示对应用程序有用的信息。包括以下信息:1),stages和tasks列表。2),RDD大小的总概和内存使用。3),运行环境信息。4),运行的Executors状态。可以在浏...原创 2019-03-27 15:36:13 · 1117 阅读 · 0 评论 -
使用idea以yarn-client 提交任务到yarn
用idea提交任务到yarn,这样测试的时候不用频繁打包。构建工程的命令:mvnarchetype:generate \-DarchetypeGroupId=org.scala-tools.archetypes \-DarchetypeArtifactId=scala-archetype-simple \-DremoteRepositories=http://scala-too...原创 2019-03-27 15:38:06 · 972 阅读 · 0 评论 -
解读 spark on yarn
/ 为什么需要 Yarn? /Yarn的全称是Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop的一个组件,官方对它的定义是一个工作调度和集群资源管理的框架。Yarn最早出现于Hadoop 0.23分支中,0.23分支是一个实验性分支,之后经过了几次迭代,最后发布于2014年6月的0.23.11版本(该分支的...原创 2019-03-27 15:44:58 · 412 阅读 · 0 评论 -
spark streaming 使用心得及源码阅读
1,基本使用主要是转换算子,action,和状态算子,这些其实,就按照api手册或者源码里接口介绍结合业务来编码。其实,想用好spark streaming 掌握spark core,spark rpc,spark 任务调度,spark 并行度等原理还非常有必要。2,中间状态缓存说到中间算子大家肯定都会想到UpdateStateByKey等状态。里面很多注意事项,比如顺序性,key...原创 2019-03-27 15:49:28 · 282 阅读 · 0 评论 -
StructuredStreaming
一,概述Structured Streaming是一个可扩展和容错的流处理引擎,并且是构建于sparksql引擎之上。你可以用处理静态数据的方式去处理你的流计算。随着流数据的不断流入,Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行 streaming aggregations, event-time windows, stream...原创 2019-03-27 15:51:54 · 602 阅读 · 0 评论 -
解读 spark rdd
1 Spark的RDD提到Spark必说RDD,RDD是Spark的核心,如果没有对RDD的深入理解,是很难写好spark程序的,《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》这篇论文是Spark最为准确最为经典的描述,在网上可以很容易的搜到pdf版,建...原创 2019-03-27 15:54:27 · 337 阅读 · 0 评论