自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

anzhsoft的技术专栏

专注分布式资源管理和大数据处理平台: Since Dec. 2013

  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark技术内幕:Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户

2015-01-18 19:13:13 17701 19

原创 Spark技术内幕:Shuffle的性能调优

通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuf

2015-01-18 19:09:28 27054 6

原创 Spark技术内幕:Shuffle Read的整体流程

本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握

2015-01-12 08:07:31 22959 16

原创 Spark技术内幕:Shuffle Map Task运算结果的处理

Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffle Writer时,我们知道ShuffleM

2015-01-12 08:02:16 19351 12

原创 Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?

在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?

2015-01-11 15:13:24 20482 8

原创 抄袭,借鉴?

出版的纸质书,直接拷贝我的某篇文章,赤裸裸的侵权;呵呵。

2015-01-08 08:15:41 5932 19

原创 Spark技术内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?

通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易是指功能实现方面。但是这个实现必须要考虑超大规模数据场景下的性能问题,资源消耗问题。

2015-01-08 07:58:40 16193 5

原创 Spark技术内幕:Sort Based Shuffle实现解析

在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortShuffleManager。那么Sort BasedShuffle“取代”Hash BasedS

2015-01-05 07:29:53 19082 7

原创 2015元旦:为什么没有更新博文

正在细读Shuffle和Storage, network的源码。过几天会将相关的成果奉献给大家。正如您看到我博客的侧边栏和下边栏,我正在家2014博客之星的评选,感谢各位的支持。

2015-01-03 21:44:14 13043 2

Linux Debugging: coredump 分析的材料

本文是http://blog.csdn.net/anzhsoft/article/details/18762915用到的例子。下载后先unzip,在tar xf

2014-01-27

Linux Debugging: coredump 分析入门的材料

本文是http://blog.csdn.net/anzhsoft/article/details/18762915用到的例子。

2014-01-27

局域网活动主机的C++实现

局域网活动主机的C++实现;及其开发的说明文档,在VC6.0上可以正常编译通过!!!!!!!!这是研究生计算机网络的一个得分90的程序。源码+可执行程序+说明文档

2009-03-08

常见的端口扫描的C++实现

常见的端口扫描的C++实现;及其开发的说明文档,在VC6.0上可以正常编译通过!!!!!!!!这是研究生计算机网络的一个得分90的程序。源码+可执行程序+说明文档

2009-03-08

基于SNMP的网络拓扑发现程序

基于SNMP的网络拓扑发现程序 使用vc.net编写

2008-11-25

计算机网络的帧的封装与解析

计算机网络的帧的封装与解析 可以放送和解析以太网的帧。

2008-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除