无状态数据处理集群最佳维护时间选择与云资源管理探讨
集群维护时间确定方法
在处理无状态数据的集群维护中,阈值的确定至关重要。通过将紧急级别视为百分位值,能够轻松获取阈值,即 AWthre = PLevelurg 。例如,对于紧急级别为 1 的低紧急维护请求,会选择 P1 值,这里的 P1 表示所有值中 1% 低于该值。
- CL 方法 :预测的工作负载表明在预测期内任何时间同时运行的作业数量。阈值基于分析的工作负载和维护紧急程度确定。未来预测工作负载强度低于阈值的时间戳,就是可能的集群维护开始时间。
- AW 方法 :预测的工作负载会扣除未来任何时间的累计工作量。选择相应的阈值后,与 CL 方法类似,即可确定维护时间。
确定集群维护阈值后,通过将实时工作负载与阈值进行比较,就能确定维护时间。具体步骤如下:
1. 定期查询 Hadoop 作业历史服务器,周期为 Tjh 。
2. 获取作业历史信息的快照,并提取所有作业。
3. 对于每个正在运行的作业 Ji ,收集所有已完成或正在运行的任务 Tmr 。
4. 迭代所有任务,将消耗的计算资源聚合为 AWaggr 。
5. 将聚合的 AWaggr 与阈值 AWthre 进行比较。如果 AWag
订阅专栏 解锁全文
3405

被折叠的 条评论
为什么被折叠?



