- 博客(5)
- 资源 (39)
- 收藏
- 关注
转载 四、Spark性能优化:shuffle调优
shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部...
2018-09-07 15:31:44 232
转载 三、Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1.数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性...
2018-09-07 15:31:05 227
转载 二、Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无...
2018-09-07 15:30:19 177
转载 一、Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算...
2018-09-07 15:29:18 236
原创 记录两次sparkjob优化,性能提升几十倍不止
目前在做两个项目,一个搜索平台化一个排序服务化,在项目开发中两者都用到了spark开发数据处理,遇到问题多多,但解决后性能提升几十倍不止,下面记录下两次优化。 一、在特征处理中,需要读取hive的数据进行业务逻辑处理写入到kv系统中,为了减少shuffle,每次处理直接用mapPartitons以及foreachPartitons进行处理,整体都速度不错,但是就是有那么几个特征hive表处理就是...
2018-09-04 18:04:38 1883
流程引擎之compileflow idea 2024.*插件支持
2024-05-27
SkyAR完整代码+依赖文件:checkpoints-G-coord-resnet50
2023-06-11
视频换天造物实践秒变科幻大片实践相关资料:checkpoints-G-coord-resnet50
2023-06-11
gradle-4.3&jdk10-mac.zip|gradle-4.3&jdk10-mac.zip
2020-11-07
spi-demo java spi小例子
2019-02-12
java垃圾回收以及jvm参数调优概述
2017-06-18
maven+springMVC+mybatis+velocity+mysql+junit 代码生成器
2016-11-06
maven+springMVC+mybatis+velocity+mysql+junit项目框架搭建
2016-11-06
IK源码及讲解中的测试代码
2014-12-09
solr4.7示例包含需要的jar包
2014-03-19
抽象工厂模式简洁介绍附带net简单用例代码如果你还不理解是老天爷的错
2013-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人