滴滴面经1

JVM的内存结构

整体可以分为两个部分:线程共享区域和线程私有区域和直接内存。其中线程共享结构有:堆,方法区。线程私有结构有:本地方法栈,虚拟机栈,程序计数器。线程私有结构生命周期与线程相同,随着线程而被创建/销毁。线程共享结构生命周期与JVM生命周期一致。直接内存不属于JVM运行时内存。
程序计数器:用来记录当前虚拟机字节码指令的地址,如果是Native方法则为空。无OOM。
虚拟机栈:用于描述java方法的执行。每个方法执行的同时都会创建一个栈帧用于保存局部变量表,操作数栈,动态链接,方法出口等信息。每个方法从调用到执行结束对应着一个栈帧从入栈到出栈的过程。
本地方法栈:本地方法栈和虚拟机栈类似,区别是虚拟机栈服务于Java方法,而本地方法栈服务于Native方法。
:是被线程共享的一部分内存区域。主要用于保存创建的对象和数组等。堆是GC的主要场所。从GC的角度,堆还可以被分为新生代(Eden区,From Survivor区和To Survivor区)和老年代。
方法区/永久代:主要用于保存被JVM加载的类信息,常量,静态变量等数据。

类的加载过程

加载,验证,准备,解析,初始化

  1. 加载:将字节码文件从各种来源中加载入内存,生成一个Class对象,并将这个Class对象作为方法区这个类的各种数据的入口。
  2. 验证:主要为了验证Class文件中包含的信息是否符合当前虚拟机要求,并且不会危害虚拟机自身的安全。
  3. 准备:为类变量分配内存并设置初始值。若该类变量为常量,则赋最终值。
  4. 解析:将常量池中的符号引用替换为直接引用。
  5. 初始化:执行方法。方法是编译器自动收集类变量的赋值操作和静态代码块中的语句合并而出的。虚拟机会保证子方法执行前,父方法已经执行完毕。

垃圾回收器

7大垃圾收集器:年轻的:Serial GC,Parallel GC,ParNew。老年代:SerialOldGC,ParallelOldGC,CMSGC。都可以使用:G1GC.
SerialGC:单线程垃圾收集器,是最古老的垃圾收集器。他使用一个线程去进行垃圾回收,过程可能会产生较长的停顿(Stop-The-World)。虽然在工作是要暂停其他工作线程,但是对于单CPU环境而言,没有线程交互的开销可以获得最高的效率。
ParallelNewGC:多线程垃圾收集器,在进行垃圾收集时也要STW。他是SerialGC的多线程版本,除此之外与SerialGC完全一样。
ParallelScavengeGC:多线程垃圾收集器,类似于ParNew。俗称吞吐量优先收集器。他关注的是可控制的吞吐量 Thoughput=运行用户代码时间 / (运行用户代码时间+垃圾收集时间)。虚拟机会根据当前系统运行情况收集性能监控信息,从而动态的调整参数以提供最合适的停顿时间或最大吞吐量。
SerialOldGC(1.8被移除):单线程老年代收集器,也是主要运行在client模式下。
ParallelOldGC:多线程老年代收集器。ParallelScavengeGC的老年代版本,使用多线程的标记-整理算法。
CMSGC:并发标记清除算法,是一种以获取最短回收停顿时间为目标的收集器,非常适合内存大,CPU核心多的服务端应用。这也是他的缺点之一。另外,标记清除算法会产生大量内存碎片。

初始标记(快速的STW,标记GC Roots能直接关联的对象)->并发标记(标记所有可达对象)->重新标记(修正并发标记时发送变动的对象记录)->并发清除(清除GC Roots不可达对象)

保证线程安全的方法有哪些

得分点:原子类,volatile,同步锁;其他:线程安全容器,无状态设计,无权限,不可变设计,TreadLocal。
volatile:当写一个volatile变量时,该线程本地内存中的共享变量的值会被立刻刷新到主内存;当读一个volatile变量时,该线程本地内存会被置为无效,迫使线程直接从主内存中读取共享变量。但是volatile关键字并不能保证线程安全,因为它无法保证原子性。
原子类::java中提供了一些原子类,如AtomicInteger、AtomicBoolean等,他们可以保证在多线程环境下对变量的操作是原子性的,从而保证线程安全。
同步锁:原子类和volatile只能保证单个共享变量的线程安全,锁则可以保证临界区内的多个共享变量的线程安全,Java中加锁的方式有两种,分别是synchronized关键字和Lock接口。

hdfs的架构

NameNode,DataNode,Secondary NameNode,Client
NameNode:负责处理来自Client的读写请求;维护NameSpace;通过心跳机制与DataNode进行数据交互;配置副本策略;管理数据块映射信息;
DataNode:保存实际数据块;向NameNode发送心跳;执行数据块的读写操作;
Secondary NameNode:定时将edits中的日志整合到fsimage中;在NameNode发生故障时辅助NameNode快速恢复
Client:与NameNode交互,获取文件位置信息;与DataNode进行数据交互;对数据块进行切分;提供一些命令管理HDFS;提供一些命令访问HDFS

hdfs读写流程

读流程:

  1. Client向NameNode发起文件读取请求;
  2. 若存在,则返回一个block对应的DataNode地址列表,列表按照DataNode的拓扑距离排序。
  3. Client从列表中排序靠前的DataNode中读取对应Block数据。
  4. 每一个block读取完成后会进行checksum检验,若出错则从该block的下一个节点继续读取。
  5. 一个block读取完成后,Client会与下一个block的最近节点建立连接读取数据。
  6. 所有block读取完成后会合并为一个完整的文件。

写流程:

  1. Client向NameNode发起文件上传请求,NameNode会进行系列检查(文件是否已存在,是否有创建权限,父目录是否已存在等),检查通过后返回允许上传。
  2. Client将文件切分为多个block数据块,并向NameNode请求上传第一个数据块。
  3. NameNode返回一个DataNode列表(A,B,C),Client选择列表中第一个结点A进行上传。本质是RPC调用,建立pipeline。A收到请求会继续请求B,B再请求C,完成pipeline构建。
  4. Client在缓存中将block切分为64kb的packet,并以packet的形式在pipeline上传输数据。A收到一个packet后会传输给B,B传给C。然后反方向传输ACK,最终由第一个节点将ACK传输给Client。
  5. 当一个block传输完毕后,Client会再次发起请求上传下一个block。直到所有block都传输完毕。

MapReduce的shuffle过程

  1. map阶段计算的结果会被Context.write(k,v)写入到环形缓冲区(outputCollector)中。
    环形缓冲区:大小100M,溢写阈值80M。本质是字节数组。数据写入时,将数据正向(顺时针)写入,然后反方向写入metadata。metadata包括索引,分区,keystart,valstart等。
  2. 当环形缓冲区中数据量达到80%时,将数据反向溢写到磁盘(中间数据,可以不写入hdfs),在溢写前会通过快速排序,按照分区进行排序(对元数据进行排序),然后通过有序的元数据寻找对应原始数据进行溢写。溢写出来可能有多个文件,可以通过归并排序处理多个有序文件。如有必要,则还可以通过combiner聚合value,减少数据量。
  3. reduce端通过http请求从所有map端拉取属于自己分区的数据(默认5线程),保存在内存中。
  4. 如果拉取到的数据量较大,会溢写到磁盘中。在溢写之前会进行归并排序。
  5. 然后按照key分组,依次读入reduce方法进行处理,处理结果通过Context.write()直接写入hdfs。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值