SparkCore
文章平均质量分 92
super_man_0820
无无
展开
-
Spark开发注意事项小结(性能方面)
1. 平台全局配置序列化方式 : kyrospark-default.conf : spark.serializer org.apache.spark.serializer.KryoSerializer使用自定义类时,对类进行注册,否则会存储每个对象的全类名(full class name)备注:如果序列化对象较大,提高 spark.kryoserializer.buffer 的值...原创 2019-09-02 10:32:14 · 392 阅读 · 0 评论 -
Spark总结整理(一):Spark内核架构(Spark从启动到执行的流程)
本篇文章主要介绍Spark的内核架构,详细介绍从Saprk程序编写完成使用Spark submit(shell)的方式提交到完成任务的流程Spark任务详解:将编写的Spark程序打成 jar 包调用 spark-submit 脚本提交任务到集群上运行运行sparkSubmit的main方法,在这个方法中通过反射的方式创建我们编写的主类的实例对象,然后调用main方法,开始执...原创 2019-09-04 10:24:17 · 468 阅读 · 0 评论 -
Spark总结整理(二):Spark Transformation和Action整理
本篇文章主要介绍:Transformation 与 Action 常用API 速览Transformation 与 Action 常用API DEMO1. Transformation 与 Action 常用APISpark支持两个类型(算子)操作:Transformation和Action1.1Transformation将一个已有的RDD生成另外一个RDD。Transform...原创 2019-09-04 14:14:41 · 326 阅读 · 0 评论 -
Spark总结整理(三):Spark Core 性能优化之开发调优
Spark性能优化主要分为:开发调优资源调优数据倾斜调优shuffle调优Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵...原创 2019-09-04 16:42:21 · 361 阅读 · 0 评论 -
Spark总结整理(四):Spark Core 性能优化之资源调优
Spark性能优化主要分为:开发调优资源调优数据倾斜调优shuffle调优在开发完Spark作业之后,就该为作业配置合适的资源了资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常本篇罗列资源调优的注意事项1. 引言建议先了解 Spark作业基本运行原理 和 Spark内存模型参考:htt...原创 2019-09-04 17:57:51 · 419 阅读 · 0 评论 -
Spark总结整理(五):Spark Core 性能优化之数据倾斜调优
Spark性能优化主要分为:开发调优资源调优数据倾斜调优shuffle调优数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能1. 数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见原本...原创 2019-09-06 11:25:56 · 226 阅读 · 0 评论 -
Spark总结整理(六):Spark Core 性能优化之Shuffle调优
Spark性能优化主要分为:开发调优资源调优数据倾斜调优shuffle调优大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的...原创 2019-09-06 15:57:00 · 239 阅读 · 0 评论 -
Spark总结整理(七):Spark Core 性能优化之内存模型
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任...原创 2019-09-14 10:42:40 · 195 阅读 · 0 评论 -
Spark总结整理(八):Spark Core 性能优化思路、步骤总结
总结前面性能优化相关文章,列出Spark开发性能优化的一般步骤前述文章包括:1. Spark总结整理(三):Spark Core 性能优化之开发调优2. Spark总结整理(四):Spark Core 性能优化之资源调优3. Spark总结整理(五):Spark Core 性能优化之数据倾斜调优4. Spark总结整理(六):Spark Core 性能优化之Shuffle调优5. Sp...原创 2019-09-14 11:04:58 · 220 阅读 · 0 评论