- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 day60:sparkSql
以下内容来源于DT大数据梦工厂:一:SparkSQL 与DataFrame1、 sparksql之所以是除了spark core以外最大的和最受关注的组件,原因是:a) 处理一切存储介质和各种格式的数据(同时可以方便的扩展sparksql的功能来支持更多类型的数据例如:kudu)b) spark SQL把数据仓库的设计推向了新的高度,不仅仅是无敌的计算速度(spark
2016-03-12 21:45:05 366
原创 day31:Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度
以下内容整理来源于DT大数据梦工厂:http://.blog.sina.com.cn/ilovepainsDT大数据梦工厂联系方式:微信公众号:DT_SparkTEL:18610086859Email:18610086859@vip.126.com
2016-03-12 15:10:33 299
原创 day25:Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式
以下博客整理来源于DT大数据梦工厂:一:为什么需要Sort-Based shuffle1、shuffle 一般包含2个阶段任务:第一部分,产生Shuffle数据的阶段(Map阶段,需要实现ShuffleManager 中的getWriter来写数据,可以通过blockManager将数据写入、Memory,Disk,Tachyon都可以,也可以写副本(例如想非常快的shuffle此时可以考
2016-03-06 22:43:18 653
原创 day50:性能优化6--Shufffle
一下内容整理来源于DT大数据梦工厂:一:shuffle 性能优化1、问题: Shuffle output file lost? 真正的原因是GC导致的!!默认时间间隔5秒可以调大。spark.shuffle.file.bufferspark.shuffle.io.maxRetriesspark.shuffle.file.buffer内存管理和二进制处理:借助应用的
2016-03-03 21:15:52 427
原创 day26:Spark Runtime(Driver、Masster、Worker、Executor)内幕
以下内容整理来源于DT大数据梦工厂:新浪微博:www.weibo.com/ilovepains/DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859
2016-03-02 23:15:33 1012
原创 day49:性能优化5
以下内容来源于DT大数据梦工厂:1、数据本地性2、RDD自定义一、性能优化之数据本地性数据本地性是对分布式系统是一件 最为重要的事情(之一),程序包含代码和数据2部分,单机版本一般情况下很少数据本地性的问题(因为数据在本地)。但是由于数据本地有PROCESS_LOCAL和NODE_LOCAL之分。所以我们还是尽量的让数据处于PROCESS_LOCAL。例如PHP 现在都
2016-03-02 20:20:50 336
原创 day24:park Hash Shuffle内幕彻底解密
一下内容和资源整理来源于DT大数据梦工厂DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com
2016-03-01 07:45:43 494
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人