Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement Learning

摘要:A2C调度包含两个agent,一个actor,负责自动学习调度策略,一个critic,负责减少估计误差,A2C调度的设计是为了减少梯度估计误差从而有效的更新参数,

1.介绍

作业调度涉及到限制资源(I/O,CPU,GPU,内存)
数据的异构性是一个挑战,首先,基于策略梯度DRL的调度方法存在高偏差,可能导致计算梯度时的低精度,第二,以前的工作放啊依赖于使用MonteCarlo方法来更新参数,这涉及到大量的计算,尤其是当轨迹中有大量的工作时。
为了去解决上述的挑战,提出了A2C调度。

2.相关工作

2.1深度强化学习中的作业调度
2.2演员评论家强化学习

3.方法和问题表述

3.1作业调度中的A2C

在这里插入图片描述

图1包含了一个actor网络,一个critic网络和集群环境,集群环境包含一个全局队列,一个后备队列和模拟的机器,队列中有等待的作业,后备队列中是队列的扩展(当没有足够的空间为等待的队列时),在每个状态下,只有队列中的工作将会被分配。

A2C的设置
Actor:策略π是一个产生可能动作概率的actor,π是s到a的映射,actor可以根据基于π所形成的的动作概率从队列中选择job ,例如,给定动作的可能性P={p1,p2,pN},有N个动作,pi表示选择动作ai的概率,如果根据最大概率选择动作(action = arg maxi∈[0,N],i∈N+ pi),actor变得贪婪,限制了agent的探索,策略由神经网络π(a|s, θ)来估计。

Critic:状态价值函数v(s)常常用来评估actor的好坏,本文中是由神经网络来估计的v(s,w)
State: s被定义为资源分配状态,包括集群的状态和在队列中的状态,S是一个有限的集合,图片包含三部分:已分配资源的状态,可用资源的状态,队列中作业请求的资源,积压等待作业的状态。调度程序只调度队列中的程序.

在这里插入图片描述

图二是状态张量表示的一个例子, 将被调度的作业数量的决策组合是2^总的job,决策为i表示选择第i个作业,

Action: at= 〖{a_t}〗_1^N表示t时刻队列中等待的作业分配策略,N是队列中等待的作业的槽数,actor的动作空间A指定在下一次迭代中队列所有可能分配的策略,给定N+1个离散的动作{∅,1,2,….N},a_t=i表示队列中第i个作业中的分配, a_t=∅表示没有分配作业的无效操作.
Environment:模拟数据中心包含CPU,RAM,I/O,还包括等待分配作业的资源管理队列系统
Discount Factor:介于0和1之间
Transition function:从当前状态转移到下一状态的概率
Reward function
Critic的损失函数

在这里插入图片描述

3.2训练算法

使用深度卷积神经网络来实现,对于actor网络,将上述资源请求和机器状态的张量作为输入,输出所有动作概率可能的分布,来表示要调度的作业,critic网络将动作和状态作为输入,输出的单个值表示对actor动作的评估.

4.实验

4.1实验计划

一个状态被传递到策略网络π。策略π下生成一个动作。执行一个无效操作,或者从全局队列中选择一个作业并放入集群中执行。然后产生一个新的状态,并收集一些奖励。状态、行动、政策和奖励被收集为轨迹。同时,状态也被传递到价值网络中以估计价值,用于评估动作的性能。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值