- 博客(14)
- 资源 (5)
- 收藏
- 关注
原创 Day8:IDEA 开发spark
本内容整理来源于DT大数据梦工厂。在bin 目录下执行:./spark-submit --class cn.tan.spark.dt.WordCount --master spark://node11:7077 /home/word.jarspark jobHistory 配置:Caused by: java.lang.IllegalArgumentException:
2016-02-29 22:59:13 552
原创 day47:DT大数据梦工厂性能优化day47
以下内容整理来源于DT大数据梦工厂,微博地址:优化数据结构:减少内存1、java 对象是16个字节(例如指向对象的指针等元数据信息),如果对象中只有一个int的property,则此时会占据20个字节,也就是说对象的原数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说明使用JSON格式来封装数据2、Java中的基本数据类型会自动的封箱操作,例如int会
2016-02-26 14:26:08 322
原创 day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
本文内容来源于DT大数据梦工厂整理,微博地址:
2016-02-24 17:32:32 1384
原创 day15 RDD 内幕解析
本文整理自大数据梦工厂:实现计算2数和object RDDBaseOnCollection { def main (args: Array[String]) { val conf = new SparkConf() conf.setAppName("....RDDBaseon Collection") conf.setMaster("
2016-02-22 23:41:45 253
原创 day14 RDD 揭秘
本内容整理来源于DT大数据梦工厂:http://weibo.com/ilovepains1、基于数据集的处理工作:从物理设备上加载数据,然后操作数据,然后在写入物理存储设备,基于数据流的方式不能够复用曾经的结果或者查询中间计算2、不适应上面场景:不适合大量迭代(每一步对数据执行相似的函数); 交互式查询需要将每次的数据查询都读写磁盘然后3、RDD 是基于工作集,但是有工作流
2016-02-22 21:47:50 282
原创 Day19 实现二次排序
本文来自王家林大数据梦工厂整理 分别用java 和scala 实现二次排序分析:// 按照order 和Serializable 实现自定义排序的key// 将要进行二次排序的文件加载进来生成(key, value) 类型的RDD//使用sortBykey 基于自定义的key 进行排序//去除掉排序的值,保留排序的结果
2016-02-19 00:14:58 250
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人