2016年03月_黄色沙琪玛

11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 day60:sparkSql

以下内容来源于DT大数据梦工厂：一：SparkSQL 与DataFrame1、 sparksql之所以是除了spark core以外最大的和最受关注的组件，原因是：a) 处理一切存储介质和各种格式的数据（同时可以方便的扩展sparksql的功能来支持更多类型的数据例如：kudu）b) spark SQL把数据仓库的设计推向了新的高度，不仅仅是无敌的计算速度（spark

2016-03-12 21:45:05 366

原创 day31：Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度

以下内容整理来源于DT大数据梦工厂：http://.blog.sina.com.cn/ilovepainsＤＴ大数据梦工厂联系方式：微信公众号：DT_SparkTEL:18610086859Email:18610086859@vip.126.com

2016-03-12 15:10:33 299

原创 day30:Master的注册机制和状态管理解密

以下内容整理来源于DT大数据梦工厂：

2016-03-09 08:05:07 790

原创 spakr 性能优化：钨丝计划内幕

以下内容整理来源于DT大数据梦工厂：

2016-03-07 21:48:44 438 1

原创 day25：Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式

以下博客整理来源于DT大数据梦工厂：一：为什么需要Sort-Based shuffle1、shuffle 一般包含2个阶段任务：第一部分，产生Shuffle数据的阶段（Map阶段，需要实现ShuffleManager 中的getWriter来写数据，可以通过blockManager将数据写入、Memory，Disk，Tachyon都可以，也可以写副本（例如想非常快的shuffle此时可以考

2016-03-06 22:43:18 653

原创 day28：Spark天堂之门解密

以下内容整理来源与DT大数据梦工厂：

2016-03-05 17:54:26 570

原创 day50:性能优化6--Shufffle

一下内容整理来源于DT大数据梦工厂：一：shuffle 性能优化1、问题： Shuffle output file lost? 真正的原因是GC导致的！！默认时间间隔5秒可以调大。spark.shuffle.file.bufferspark.shuffle.io.maxRetriesspark.shuffle.file.buffer内存管理和二进制处理：借助应用的

2016-03-03 21:15:52 427

原创 day27：Spark on Yarn彻底解密

以下内容整理来源于DT大数据梦工厂：

2016-03-02 23:17:45 533

原创 day26：Spark Runtime（Driver、Masster、Worker、Executor）内幕

以下内容整理来源于DT大数据梦工厂：新浪微博：www.weibo.com/ilovepains/ＤＴ大数据梦工厂新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsTEL:18610086859

2016-03-02 23:15:33 1012

原创 day49:性能优化5

以下内容来源于DT大数据梦工厂：1、数据本地性2、RDD自定义一、性能优化之数据本地性数据本地性是对分布式系统是一件最为重要的事情（之一），程序包含代码和数据2部分，单机版本一般情况下很少数据本地性的问题（因为数据在本地）。但是由于数据本地有PROCESS_LOCAL和NODE_LOCAL之分。所以我们还是尽量的让数据处于PROCESS_LOCAL。例如PHP 现在都

2016-03-02 20:20:50 336

原创 day24:park Hash Shuffle内幕彻底解密

一下内容和资源整理来源于DT大数据梦工厂ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com

2016-03-01 07:45:43 494