关闭

使用Kubernetes需要注意的一些问题(FAQ of k8s)

记录了使用k8s过程中遇到的一些问题,不过货有点太干,接下来有时间会写一下关于架构原理和更详细的实践分享...
阅读(10587) 评论(0)

独立开发一个云(PaaS)的核心要素, Go, Go, Go!!!

如果自己的公司需要打造一个适合自己公司内部使用的PaaS,亦或是你想了解一下一个云平台是怎么构建出来的,这篇文章会比较适合你。...
阅读(5307) 评论(2)

我的第一本著作:Spark技术内幕上市!

现在各大网站销售中!京东:http://item.jd.com/11770787.html当当:http://product.dangdang.com/23776595.html亚马逊:http://www.amazon.cn/SparkInternals前言和目录附上,以便有需要了解的同学:诞生于2005年的Hadoop解决了大数据的存储和计算问题,已经成为大数据处理的事...
阅读(50816) 评论(27)

庆祝访问过百万

2015年以来自己的确是疏于打理博客了。当然工作忙永远是推脱很多事情的最好借口。但是,自己的确是很忙。 今天登陆,突然发现访问量过百万,而且,访问数量是1001001,一个完美的回文数。...
阅读(6138) 评论(13)

OSTC 2015

上周六去北京参加了OSTC 2015开源技术大会...
阅读(2172) 评论(1)

2014博客之星,感激自己,谢谢大家

被评为2014博客之星,感谢大家的投票和自己的坚持...
阅读(2735) 评论(10)

Spark技术内幕:Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户...
阅读(15780) 评论(19)

Spark技术内幕:Shuffle的性能调优

通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuf...
阅读(17900) 评论(6)

Spark技术内幕:Shuffle Read的整体流程

本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握...
阅读(16970) 评论(16)

Spark技术内幕:Shuffle Map Task运算结果的处理

Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffle Writer时,我们知道ShuffleM...
阅读(16455) 评论(12)

Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?

在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?...
阅读(14761) 评论(8)

抄袭,借鉴?

出版的纸质书,直接拷贝我的某篇文章,赤裸裸的侵权;呵呵。...
阅读(4479) 评论(19)

Spark技术内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?

通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易是指功能实现方面。但是这个实现必须要考虑超大规模数据场景下的性能问题,资源消耗问题。...
阅读(14720) 评论(5)

Spark技术内幕:Sort Based Shuffle实现解析

在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortShuffleManager。 那么Sort BasedShuffle“取代”Hash BasedS...
阅读(16518) 评论(8)

2015元旦:为什么没有更新博文

正在细读Shuffle和Storage, network的源码。过几天会将相关的成果奉献给大家。正如您看到我博客的侧边栏和下边栏,我正在家2014博客之星的评选,感谢各位的支持。...
阅读(12541) 评论(4)

2014博客之星: 请大家为我投票

我的400多位CSDN的粉丝们,大家动一下鼠标给我投一票吧。衔接: http://vote.blog.csdn.net/blogstar2014/details?username=anzhsoft2008#content 对于非粉丝并且未登录的,可以使用QQ,微博,百度账号等第三方登陆。谢谢...
阅读(3690) 评论(67)

分布式系统的设计几个要注意的地方

最近在做系统升级,由于当时设计的局限,导致系统不停服,保证服务的做法非常麻烦。当时再定方案的时候,由于自己在这方面没有经验,导致有些乐观。到了实际做的时候,预期时间至少比预想的多了一周的时间,要知道,在互联网公司,一周的时间是个非常长的时间。而这一周,还包括了OT。在这里总结一下分布式系统设计的大忌,本来想试着分一下级,但是还是算了,一来标准太多,无法制定一个合适的规则来界定;二来自己的经验也在增...
阅读(7554) 评论(19)

What’s new in Spark 1.2.0

1.2.0 was released on 12/18, 2014 在2014年5月30日发布了Spark 1.0 和9月11日发布了Spark1.1.后,Spark 1.2 终于在12月18日发布。作为1.X时代的第三个release,它有什么重要更新呢?...
阅读(3617) 评论(1)

2014 BDTC 参会有感

中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2008年仅60人参加的技术沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,已经成功举办七届的中国大数据技术大会忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。...
阅读(4057) 评论(11)

Spark技术内幕: Shuffle详解(三)

前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。...
阅读(5452) 评论(4)
106条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1914831次
    • 积分:15181
    • 等级:
    • 排名:第774名
    • 原创:105篇
    • 转载:0篇
    • 译文:1篇
    • 评论:787条
    版权声明
    鉴于很多网站转载本博客的文章而大部分都没有标明出处,本博客声明如下: 本博客所有文章都为原创,未经允许,不得转载;未经允许,不得进行商业发布或者其他的盈利性活动。如发现侵权,将依法追究其责任。
    博客专栏
    我的微博