2017年07月_神探狄仁杰

07月

原创 Spark——性能调优——Shuffle

一、序引当以分布式方式处理数据时，常常需要执行map与reduce转换。由于巨量数据必须从一个节点传输到另外的节点，给集群中的cpu、磁盘、内存造成沉重的负载压力，同时也会给网络带宽带来压力。所以，reduce阶段进行的shuffle过程，往往是性能的瓶颈所在。 shuffle过程涉及数据排序、重分区、网络传输时的序列化与反序列化，为了减少I/O带宽及磁盘I/O操作，还要对数据

2017-07-29 22:03:52 1306

原创 Spark——性能调优——执行模型与分区

一、序引考虑到性能问题，而言Spark基本原理、执行模型、描述数据被shuffle(洗牌)，乃是前提条件。掌握数据序列化，缓存机制，以及内存管理、垃圾回收，亦十分必须。二、Spark执行模型在大言Spark应用的性能改善之前，十分有必要先了解Spark在集群上分布式执行程序的基础知识。 →当启动一个Spark应用时，driver进程会随着集群

2017-07-21 18:00:24 1199

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人