2016年02月_黄色沙琪玛

11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 Day8：IDEA 开发spark

本内容整理来源于DT大数据梦工厂。在bin 目录下执行： ./spark-submit --class cn.tan.spark.dt.WordCount --master spark://node11:7077 /home/word.jar spark jobHistory 配置： Caused by: java.lang.IllegalArgumentException:

2016-02-29 22:59:13 552

原创 day21：从Spark架构中透视Job

本文整理来源于DT大数据梦工厂：

2016-02-29 12:56:49 446

原创 day22:RDD的依赖关系彻底解密

本文整理来源于DT大数据梦工厂:

2016-02-29 12:55:43 739

原创 day23：从物理执行的角度透视Spark Job

以下内容整理来源于DT大数据梦工厂，微博地址：

2016-02-26 14:27:29 441

原创 day47：DT大数据梦工厂性能优化day47

以下内容整理来源于DT大数据梦工厂，微博地址：优化数据结构：减少内存 1、java 对象是16个字节（例如指向对象的指针等元数据信息），如果对象中只有一个int 的property，则此时会占据20个字节，也就是说对象的原数据占用了大部分的空间，所有在封装数据的时候尽量不要使用对象！例如说明使用JSON格式来封装数据 2、Java中的基本数据类型会自动的封箱操作，例如int会

2016-02-26 14:26:08 322

原创 day18:RDD持久化、广播、累加器

本文内容整理来源于大数据梦工厂：

2016-02-24 17:33:33 307

原创 day17:RDD案例（join、cogroup、reduceByKey、groupByKey, join cogroup

本文内容来源于DT大数据梦工厂整理，微博地址：

2016-02-24 17:32:32 1384

原创 day5:Scala隐式转换和并发编程

本文内容整理来源于大数据梦工厂：

2016-02-24 17:31:07 214

原创 day16：RDD实战（RDD基本操作实战及Transformation流程图）

以下内容整理来源于DT大数据梦工厂：

2016-02-23 06:42:32 530

原创 day15 RDD 内幕解析

本文整理自大数据梦工厂：实现计算2数和 object RDDBaseOnCollection { def main (args: Array[String]) { val conf = new SparkConf() conf.setAppName("....RDDBaseon Collection") conf.setMaster("

2016-02-22 23:41:45 253

原创 day14 RDD 揭秘

本内容整理来源于DT大数据梦工厂：http://weibo.com/ilovepains 1、基于数据集的处理工作：从物理设备上加载数据，然后操作数据，然后在写入物理存储设备，基于数据流的方式不能够复用曾经的结果或者查询中间计算 2、不适应上面场景：不适合大量迭代（每一步对数据执行相似的函数）；交互式查询需要将每次的数据查询都读写磁盘然后 3、RDD 是基于工作集，但是有工作流

2016-02-22 21:47:50 282

原创 Day20 实现TopN 排序

本文来自王家林大数据梦工厂整理实现Top N 分析：

2016-02-19 00:16:05 264

原创 Day19 实现二次排序

本文来自王家林大数据梦工厂整理分别用java 和scala 实现二次排序分析： // 按照order 和Serializable 实现自定义排序的key // 将要进行二次排序的文件加载进来生成（key, value）类型的RDD //使用sortBykey 基于自定义的key 进行排序 //去除掉排序的值，保留排序的结果

2016-02-19 00:14:58 250