1.线程和进程的区别
每个进程都有独立的代码和数据空间(程序上下文),程序之间的切换会有较大的开销;线程可以看做轻量级的进程,同一类线程共享代码和数据空间,每个线程都有自己独立的运行栈和程序计数器(PC),线程之间切换的开销小。
在操作系统中能同时运行多个进程(程序);而在同一个进程(程序)中有多个线程同时执行(通过CPU调度,在每个时间片中只有一个线程执行)
没有线程的进程可以看做是单线程的,如果一个进程内有多个线程,则执行过程不是一条线的,而是多条线(线程)共同完成的,线程是进程的一部分
2.Yarn HA
RMStateStore:
a.RM把job信息存在在ZK的/rmstore下,activeRM会向这个目录写app信息
b.当active RM挂了,另外一个standby RM通过zkfc选举成功为active,会从/rmstore读取相应的作业信息。
重新构建作业的内存信息,启动内部服务,开始接收NM的心跳,构建集群的资源信息,并且接收客户端的作业提交请求。
RM:
a.启动时候的会向ZK的目录 写个lock文件,写成功的话,就为active,否则为standby。
然后standby rm节点会一直监控这个lock文件是否存在,假如不存在,就试图创建,假如成功就为active。
b.接收client的请求。接收和监控NM的资源状况汇报,负载资源的分配和调度。
c.启动和监控ApplicationMaster(AM) on NM的container
ApplicationsManager RM
ApplicationMaster JOB的老大,相当于spark driver NM的container
NM: 节点的资源管理
启动container运行task计算
上报资源
汇报task进度给AM ApplicationMaster
3.HDFS HA和Yarn HA的区别?
1.ZKFC
HDFS HA的zkfc是进程
Yarn HA的zkfc是线程,只作为RM进程的一个线程,而非独立的进程
2.
HDFS HA的中间是JounalNode日志
Yarn HA是RMStateStore