- 博客(2)
- 收藏
- 关注
原创 Spark——性能调优——Shuffle
一、序引 当以分布式方式处理数据时,常常需要执行map与reduce转换。由于巨量数据必须从一个节点传输到另外的节点,给集群中的cpu、磁盘、内存造成沉重的负载压力,同时也会给网络带宽带来压力。所以,reduce阶段进行的shuffle过程,往往是性能的瓶颈所在。 shuffle过程涉及数据排序、重分区、网络传输时的序列化与反序列化,为了减少I/O带宽及磁盘I/O操作,还要对数据
2017-07-29 22:03:52 1306
原创 Spark——性能调优——执行模型与分区
一、序引 考虑到性能问题,而言Spark基本原理、执行模型、描述数据被shuffle(洗牌),乃是前提条件。 掌握数据序列化,缓存机制,以及内存管理、垃圾回收,亦十分必须。 二、Spark执行模型 在大言Spark应用的性能改善之前,十分有必要先了解Spark在集群上分布式执行程序的基础知识。 →当启动一个Spark应用时,driver进程会随着集群
2017-07-21 18:00:24 1199
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人