spark源码之core解析
数据china
这个作者很懒,什么都没留下…
展开
-
1.Spark内核执行流程
原创 2016-06-01 08:29:25 · 205 阅读 · 0 评论 -
2.Spark RDD相关知识介绍
第一:基于工作集合的应用抽象(中间的和曾经的)第二:RDD内幕解密第三:RDD思考-----------------------------------------基于工作集合的应用抽象特点:位置感知,容错,负载均衡基于数据集:从物理存储加载数据,操作数据,写入物理存储。缺点:不适合大量的迭代运算,交互查询,重点是基于数据流的方式,不能复用曾经的结果或者中间计算结果--原创 2016-06-01 08:40:45 · 208 阅读 · 0 评论 -
3.RDD的创建
第一:RDD实战第二:RDD的transformation和Action-------------------------------------------RDD.scala(reduce(),map())sparkContext.scala(runJob())RDD的操作类型3种:transformation(获得算子),action(执行操作),controlle原创 2016-06-01 08:46:59 · 209 阅读 · 0 评论 -
4.spark hash shuffer 解析
第一:Hash shuffle第二:shuffle Pluggable第三:Sorted Shuffle第四:Shuffle 性能优化--------------------------------------------------------------------------------spark适合处理中小规模的数据?怎么理解?spark原创 2016-06-01 09:28:56 · 657 阅读 · 0 评论 -
13.Java 8中JVM的MetaSpace
1.从permanent到metaspacejava8中采用metaspace可以避免permanent容易出现oom的问题。同时metaspace可以避免full gc。2.结构特点:1、使用C语言实现的native memory space 使用os的内存空间而不是jvm本身的内存空间;2、native memory space可以根据类加载的信息和情况在gc时原创 2016-06-01 10:07:27 · 336 阅读 · 0 评论 -
15.GC时候的引用计数算法和根搜索算法(用于标示GC)
虽然GC有助于程序运行,但GC对程序本身而言是无用的,会消耗资源。1.GC时的计数引用对象一旦被使用或者引用,计数器会进行+1和-1操作,当为0时被标示为垃圾。此种标示方法的弊端在于已经死亡的对象如果存在相互引用,则会一直占用内存空间,不被回收。此时会导致内存泄漏。为了解决这个问题出现了根搜索算法。2.GC的根搜索算法所有的内存存活对象组成一个tree.包括stack中引用的对象,原创 2016-06-01 10:34:25 · 753 阅读 · 0 评论