Summary of Resource management with deep reinforcement learning 论文笔记

Resource management with deep reinforcement learning 论文笔记

现实世界中的资源管理问题是挑战,因为底层系统非常复杂且难以建模,而且输入总是很嘈杂。 Mao et al. 进行的这项研究的目的是回答强化学习是否可以提供一种可行的替代方法,以替代人为诱发的启发式资源管理。简而言之:系统可以学习自己管理资源吗?

深度强化学习将神经网络建模与传统的RL算法结合使用,可以通过与可以在面对特定状态时获得最大收益的环境进行交互,学习根据经验做出更好的决策。作者认为,深度RL方法适用于资源管理系统。原因如下。首先,系统做出的高度重复的决策会创建大量的训练数据。其次,由于神经网络可以逼近值函数并因此减少内存资源,因此Deep RL可以对涉及高维状态空间的非常复杂的系统进行建模。第三,RL可以针对难以直接优化的目标进行培训。最后,RL代理可以通过不断学习问题来针对特定的工作负载进行优化。

作者用集群资源的当前分配和等待被调度为映像的作业的配置文件来表示状态空间(示例如图所示)。群集图像(图中最左侧的图像)显示了当前正在处理的作业以及处理这些作业所需的CPU数量,其中不同的颜色代表不同的作业。群集图像从当前时间步开始,并在未来的T时间步之前向前看。作业插槽图像(图中的蓝色图像)表示特定作业所需的CPU数量以及该作业将花费的时间。
作者仅保留要服务的前M个作业的图像,但保留一些可用资源,以便可以快速安排在不久的将来到达的小型作业(“积压(backlog)”,作者将其设置为60个作业)。

在这里插入图片描述

他们详细说明了奖励信号,并为代理制定了实现目标的指导:最小化平均减慢速度 S j = C j T j S_j = \frac{C_j}{T_j} Sj=Tj

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值