spark源码之core解析
数据china
这个作者很懒,什么都没留下…
展开
-
1.Spark内核执行流程
原创 2016-06-01 08:29:25 · 214 阅读 · 0 评论 -
2.Spark RDD相关知识介绍
第一:基于工作集合的应用抽象(中间的和曾经的) 第二:RDD内幕解密 第三:RDD思考 ----------------------------------------- 基于工作集合的应用抽象特点:位置感知,容错,负载均衡 基于数据集:从物理存储加载数据,操作数据,写入物理存储。 缺点:不适合大量的迭代运算,交互查询,重点是基于数据流的方式,不能复用曾经的结果或者中间计算结果 --原创 2016-06-01 08:40:45 · 214 阅读 · 0 评论 -
3.RDD的创建
第一:RDD实战 第二:RDD的transformation和Action ------------------------------------------- RDD.scala(reduce(),map()) sparkContext.scala(runJob()) RDD的操作类型3种:transformation(获得算子),action(执行操作),controlle原创 2016-06-01 08:46:59 · 214 阅读 · 0 评论 -
4.spark hash shuffer 解析
第一:Hash shuffle 第二:shuffle Pluggable 第三:Sorted Shuffle 第四:Shuffle 性能优化 ------------------------------- ------------------------------------------------- spark适合处理中小规模的数据?怎么理解? spark原创 2016-06-01 09:28:56 · 687 阅读 · 0 评论 -
13.Java 8中JVM的MetaSpace
1.从permanent到metaspace java8中采用metaspace可以避免permanent容易出现oom的问题。 同时metaspace可以避免full gc。 2.结构 特点: 1、使用C语言实现的native memory space 使用os的内存空间而不是jvm本身的内存空间; 2、native memory space可以根据类加载的信息和情况在gc时原创 2016-06-01 10:07:27 · 340 阅读 · 0 评论 -
15.GC时候的引用计数算法和根搜索算法(用于标示GC)
虽然GC有助于程序运行,但GC对程序本身而言是无用的,会消耗资源。 1.GC时的计数引用 对象一旦被使用或者引用,计数器会进行+1和-1操作,当为0时被标示为垃圾。此种标示方法的弊端在于已经死亡的对象如果存在相互引用,则会一直占用内存空间,不被回收。此时会导致内存泄漏。为了解决这个问题出现了根搜索算法。 2.GC的根搜索算法 所有的内存存活对象组成一个tree.包括stack中引用的对象,原创 2016-06-01 10:34:25 · 761 阅读 · 0 评论