故障原因:
1.硬件:磁盘(年4%),主板,
2.软件:bug,内存访问越界,进程crash,宕机
任务调度的故障恢复:
appmaster:快照保存instance的分配完成情况;
appworker:给另一个
fuximaster:
软状态:资源请求等:要求下面重发
硬状态:作业配置,持续化存储
规模挑战:
1.多线程异步:
异地进程通讯:RPC(远程过程调用协议)
在app master中单独给fuximaster(资源请求)分配线程池,防止与众多appworker得不到cpu
2.增量资源调度
fuximaster无法一次性给appmaster全部资源,防止来回申请的通信