自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Napoleon的专栏

专注于技术

  • 博客(2)
  • 收藏
  • 关注

原创 Spark——性能调优——Shuffle

一、序引     当以分布式方式处理数据时,常常需要执行map与reduce转换。由于巨量数据必须从一个节点传输到另外的节点,给集群中的cpu、磁盘、内存造成沉重的负载压力,同时也会给网络带宽带来压力。所以,reduce阶段进行的shuffle过程,往往是性能的瓶颈所在。     shuffle过程涉及数据排序、重分区、网络传输时的序列化与反序列化,为了减少I/O带宽及磁盘I/O操作,还要对数据

2017-07-29 22:03:52 1306

原创 Spark——性能调优——执行模型与分区

一、序引     考虑到性能问题,而言Spark基本原理、执行模型、描述数据被shuffle(洗牌),乃是前提条件。     掌握数据序列化,缓存机制,以及内存管理、垃圾回收,亦十分必须。 二、Spark执行模型     在大言Spark应用的性能改善之前,十分有必要先了解Spark在集群上分布式执行程序的基础知识。         →当启动一个Spark应用时,driver进程会随着集群

2017-07-21 18:00:24 1199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除