自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【大数据分析】Spark调优方案之资源参数调优

目录Job运行的基本原理参数调优资源参数调优shuffle参数调优 Job运行的基本原理 参数调优 资源参数调优 num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。 参数调优建议:每个Spark作业的运行一般设置50-100个左右。 executor-cores 参数说明:该参数用于设置每个Executor进程的CPU core数量。 参......

2019-11-18 11:15:58 376

原创 【大数据分析】Spark调优方案之数据倾斜调优

目录数据倾斜现象发生数据倾斜现象的原因定位发生数据倾斜的代码解决方法 数据倾斜现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见。 发生数据......

2019-11-18 10:28:52 189

原创 【大数据分析】Spark调优方案之开发调优

目录开发调优避免使用重复的RDD尽可能复用一个RDD 开发调优 避免使用重复的RDD 在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD,接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD......

2019-11-17 23:51:55 304

原创 【大数据分析】Spark介绍

这里写自定义目录标题关于Spark的几个概念新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 关于Spark的几......

2019-11-17 12:31:32 7472

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除