sparkshuffe 3

如何去看一个shuffle 算子 aggregator mapSideCombine keyOrdering partitioner reduceByKey 有 true 无 有 groupByKey 有 false 无 有 sortByKey 无 false 有 有 ...

2019-06-25 11:17:33

阅读数 41

评论数 0

spark shuffle 2 map和reduce

spark shuffle shuffle分为map阶段和reducer阶段 ShuffleManager 在driver和executor的sparkEnv中被创建.基于spark.shuffle.manager的设置.driver用它注册shuffle,executor(或在driver本地运...

2019-06-24 21:48:11

阅读数 17

评论数 0

spark shuffle 1 相关类的了解

WritablePartitionedPairCollection 每个kv对有一个分区,支持内存效率排序迭代器. 插入分区,k,v 返回迭代器Iterator[((Int, K), V)], /** * A common interface for size-tracking colle...

2019-06-24 20:43:43

阅读数 15

评论数 0

从实模式到保护模式 15 章 任务切换

在一个多任务环境中,可以同时在多个任务,每个任务都有自己的ldt和tss.可以在多个任务之间切换,使它们轮流执行.从一个任务切换到另一个任务时,具体的切换是由处理器固件负责进行的. 什么时候切换,切换到那个任务时由操作系统负责的,处理器负责切换的具体过程,包括保护前一个现场(段寄存器,通用寄存器)...

2019-06-12 14:05:15

阅读数 28

评论数 0

从实模式到保护模式 14 章 任务和特权级保护

前面的段的保护是类似阻止写可执行的代码段,访问超过段的界限.这些段的保护是处理器提供的基本保护功能. 正常的程序只访问自己的段,但恶意的程序可以修改自己的段寄存器,指向操作系统的私有数据.进行访问. 其次,在(单核)多任务系统中,两个以上的任务需要可以交替执行,快速的处理器加上高效的任务切换,在外...

2019-06-11 23:13:41

阅读数 31

评论数 0

第13章 程序的动态加载和执行

操作系统需要考虑采用什么办法加载用户程序(所有的段,在使用前都要以描述符的形式定义在描述符表中),用户程序需要提供一些必要的信息帮助操作系统. 操作系统提供了大量的例程供用户使用,比如显示一个字符串,就不要让用户自己来写代码了,直接调用操作系统的代码即可.但操作系统系统和用户程序应当协商一种机制,...

2019-06-10 14:20:08

阅读数 28

评论数 0

第12章 存储器保护

存储器保护,存储器保护可能禁止程序的非法内存访问,比如向代码段写入数据,访问段界之外的内存位置.一旦发现这些非法操作,在程序失去控制之前引发异常中断.可以提高软件的可靠性. 利用存储器的保证,可以实现虚拟内存管理,当访问一个不在内存中的段时,会引发异常中断,操作系统就可以利用这一点来从磁盘中进行段...

2019-06-08 23:39:55

阅读数 16

评论数 0

spar 内存存储 MemoryStore

MemoryStore spark将内存中的block抽象为MemoryEntry //spark将内存中的block抽象为MemoryEntry private sealed trait MemoryEntry[T] { def size: Long//当前块的大小 def memory...

2019-05-03 00:41:40

阅读数 16

评论数 0

spark 存储之磁盘存储

spark 存储之磁盘存储 spark的数据需要写到磁盘上,主要有两个类负责这个工作.DiskBlockManager和DiskStore DiskBlockManager Creates and maintains the logical mapping between logical bloc...

2019-05-02 16:42:47

阅读数 105

评论数 0

spark 内存管理模型

MemoryManager An abstract memory manager that enforces how memory is shared between execution and storage. In this context, execution memory refers t...

2019-05-02 02:13:23

阅读数 27

评论数 0

从spark学scala语法 1

with mutable.MultiMap[TaskAttemptId, BlockId] //BlockInfoManager 类 /** * Tracks the set of blocks that each task has locked for writing. */ ...

2019-05-01 01:13:36

阅读数 12

评论数 0

netty Future await方法的实现

Future await public interface Future<V> extends java.util.concurrent.Future<V> { /** * Waits for this future to ...

2019-04-30 15:05:19

阅读数 75

评论数 0

spark MapOutputTracker

MapOutputTracker 图 MapOutputTracker 保持追踪一个阶段map输出的位置的类.这个类是抽像的,因为driver和executor有不同的MapOutputTracker版本 MapOutputTrackerMaster Driver-side的类,跟踪一个stag...

2019-04-29 19:09:04

阅读数 9

评论数 0

spark sql dataset用匿名函数 的问题

dataset用匿名函数不得优化 spark.sql("select * from user").as[User].filter($"id" > 5). select("id").show() spark.sql("...

2019-04-28 20:15:15

阅读数 21

评论数 0

spark KVStore(web界面)

spark界面 spark有一个web界面展示 这个界面 是用 jetty做为后端展示的.KVStore是这些数据的存储. 为什么会有kvStore issue

2019-04-26 19:47:50

阅读数 41

评论数 0

spark 对大应用更好的可扩展历史服务器 (Better History Server scalability for many / large applications)

Better History Server scalability for many / large applications 下一代的spark历史服务/UI 在这个文档中我们将看一下为什么现在的spark history server(shs)是大量issues的来源,然后探索关于如何修复造成...

2019-04-26 16:32:16

阅读数 17

评论数 0

spark ListenerBus

spark ListenerBus 系统中,常常需要异步处理监听事件.用监听器,可以解耦系统.ListenerBus 总是监听器总线. ListenerBus 类 /** * An event bus which posts events to its listeners. * 事件总线...

2019-04-25 13:01:02

阅读数 19

评论数 0

netty 源码分析

netty中的write方法 io.netty.channel.Channel write方法 //注意这个chnnel是netty中的chinnel,不是nio中的channel io.netty.channel.Channel /** * Request to ...

2019-04-24 20:50:15

阅读数 39

评论数 0

maven scala java

项目中,Java和scala混用,java调scala,scala调java.用 mvn package的时候报错. 总结出了以下简单的 xml.使之不抱错 <build> <plugins> ...

2019-04-24 12:41:40

阅读数 23

评论数 0

java 日志

门面模式就什么 门面模式 java 日志讲解 java 日志讲解 SLF4J Java简易日志门面(Simple Logging Facade for Java,缩写SLF4J),是一套包装Logging 框架的界面程式,以外观模式实现。可以在软件部署的时候决定要使用的 Logging 框架,目...

2019-04-23 19:55:58

阅读数 17

评论数 0

提示
确定要删除当前文章?
取消 删除