调度器优化笔记

最新推荐文章于 2024-03-15 20:04:01 发布

snowleafzf

最新推荐文章于 2024-03-15 20:04:01 发布

阅读量366

点赞数

文章标签：资源调度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snowleafzf/article/details/93382785

版权

总体思想是将集群配置优化过程建模为马尔科夫过程，通过训练DRL代理来动态优化集群调度器配置。

目的是使作业等待时间最短，提高资源利用效率。

模型部分

经验部分：

使用的Prioritized DDQN中的思想，方法是使用sumtree，有价值的样本被选定的概率越大。

sumtree如下图所示

Dueling DDQN：

状态价值估计和优势函数估计是通过构建网络结构分离的，其学习过程是无监督的。分离的原因是为了去除多余的自由度，提高算法的稳定性。

Noisy DQN：

一定程度上随机选择动作，增加模型的探索能力。

A3C：

rainbow中未找到具体应用部分，待补充。

建模部分：

样本包括状态，动作，回报和下一步的状态。

状态包括正在运行的作业，等待运行的作业，资源（cpu，内存），队列约束（如资源占比），作业约束

作业包括提交时间，优先级，包括的task。

集群状态获取：通过yarn自带的rest api。

执行决策：yarn所带的shell命令

回报为等待时间的相反数（目的是使等待时间最短）

系统总体分为四个模块：Env模块、Agent模块、ReplayMemory模块和总控Controller模块

运行总流程

运行测试部分

测试的作业参数如下：

运行结果如下：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
调度器优化笔记

总体思想是将集群配置优化过程建模为马尔科夫过程，通过训练DRL代理来动态优化集群调度器配置。目的是使作业等待时间最短，提高资源利用效率。模型部分经验部分：使用的Prioritized DDQN中的思想，方法是使用sumtree，有价值的样本被选定的概率越大。sumtree如下图所示Dueling DDQN：状态价值估计和优势函数估计是通过构建网络结构分离的，其学...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。