论文笔记之Resource Management with Deep Reinforcement Learning

摘要 - 系统和网络中的资源管理问题通常表现为困难的在线决策制定任务,其中适当的解决方案取决于理解工作负载和环境。 受到最近在AI问题深层强化学习方面的进展的启发,我们考虑构建能够直接从经验中学习管理资源的系统。 我们提出了DeepRM,一个将多个资源需求打包的任务转化为学习问题的例子解决方案。 我们的初步结果显示,DeepRM的性能与最先进的启发式相当,适应不同的环境,快速收敛,并且学会了事后明智的策略。

1. INTRODUCTION
资源管理问题在计算机系统和网络中无处不在。 例如计算集群中的作业调度[17],视频流中的比特率调整[23,39],网络电话中的中继选择[40],云计算中的虚拟机放置[20,6],拥塞控制[38,37 ,13]等等。 这些问题的大部分都是使用精心设计的启发式算法解决的。 仔细研究这个领域的最新研究成果,典型的设计流程是:(1)为简化的问题模型提出巧妙的启发式; (2)在实践中精心测试和调整好的表现。 如果问题的某些方面(如工作负载或度量)发生变化,则通常需要重复此过程。

我们退一步了解为什么现实世界资源管理问题具有挑战性的一些原因:
1.基础系统很复杂,而且往往不可能精确建模。 例如,在集群调度中,任务的运行时间随着数据本地化,服务器特性,与其他任务的交互以及对CPU缓存,网络带宽等共享资源的干扰而变化[12,17]。
2.实际的实例必须通过嘈杂的输入进行在线决策,并且在不同的条件下运行良好。 例如,视频流客户端必须根据可用带宽的噪声预测选择未来视频块的比特率[39],并且对于不同的编解码器,屏幕大小和可用带宽(例如DSL与T1)运行良好。
3.一些有趣的性能指标,例如尾部性能[11],在原理上难以优化。

在本文中,我们问机器学习是否能为人力资源管理的人为启发式提供一个可行的替代方案。换句话说:系统可以学习自己管理资源吗?这可能听起来像我们打算建立天网[1],但最近在其他具有挑战性的决策领域进行学习的成功表明这个想法可能不是太牵强。特别是强化学习(RL)(§2)已成为机器学习研究的一个活跃领域[30,28,32,29,33]。 RL负责处理直接从与环境相互作用的经验中学习做出更好决策的代理商。代理开始对手头的任务一无所知,并通过强化学习 - 根据它在任务中做得如何而得到的回报。 RL有着悠久的历史[34],但最近它与深度学习技术相结合,在诸如玩视频游戏[30],计算机围棋[33],冷却数据中心[15]等应用中效果很好。
重新审视上述挑战,我们认为RL方法尤其适用于资源管理系统。 首先,由这些系统做出的决定通常是高度重复的,因此为RL算法产生大量的训练数据(例如,集群调度决策和由此产生的性能)。 其次,RL可以将复杂系统和决策策略建模为深度神经网络,类似于用于游戏代理的模型[33,30]。 可以将不同的“原始”和噪声信号1作为输入集成到这些神经网络中,所产生的策略可以用在在线随机环境中。 第三,如果存在与目标相关的回报信号,则缺乏精确的模型,因此可以直接针对难以直接优化的目标进行培训。 最后,通过不断学习,RL代理可以针对特定的工作负载(例如,小工作,低负载,周期性)进行优化,并在各种条件下保持优雅。
作为理解RL在资源管理方面潜力的第一步,我们设计(§3)并评估(§4)DeepRM,这是一种简单的多资源集群调度程序。 DeepRM运行在一个在线设置中,工作可以动态到达,一旦计划就不能被抢占。 DeepRM学习优化各种目标,如最小化平均工作减速或完成时间。我们在§3.1中描述了这个模型,以及我们如何在§3.2中把调度任务作为一个RL问题。为了学习,DeepRM采用了§3.3中描述的标准策略梯度强化学习算法[35]。
我们用DeepRM在一个综合数据集上进行模拟实验。我们的初步结果显示,在广泛的负载下,DeepRM的性能与标准启发式方法(如Shortest-Job-First(SJF))和由Tetris启发的包装方案相比甚至更好。它学习的策略有利于短期就业,长期工作,并保留一些资源免费为将来的短期就业岗位提供服务。特别是,DeepRM不需要事先知道系统的行为来学习这些策略。而且,DeepRM可以通过使用不同的强化奖励来支持多种目标。
展望未来,在真实系统中部署基于RL的资源管理器必须面对更多挑战。仅举几例,与基于RL的方案相比,简单的启发式方法通常更容易解释,理解和验证。启发式也更容易逐步采用。尽管如此,鉴于我们今天所面临的许多资源管理问题的规模和复杂性,我们被强化学习改进的可能性所吸引。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值