Data Centers Job Scheduling with Deep Reinforcement Learning

最新推荐文章于 2023-11-11 21:42:25 发布

qq_42498154

最新推荐文章于 2023-11-11 21:42:25 发布

阅读量287

点赞数

分类专栏：深度学习文章标签：机器学习深度学习 tensorflow 神经网络

本文链接：https://blog.csdn.net/qq_42498154/article/details/115580181

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Data Centers Job Scheduling with Deep Reinforcement Learning

- Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement Learning

摘要：A2C调度包含两个agent，一个actor，负责自动学习调度策略，一个critic，负责减少估计误差，A2C调度的设计是为了减少梯度估计误差从而有效的更新参数，

1.介绍

作业调度涉及到限制资源（I/O，CPU，GPU，内存）
数据的异构性是一个挑战，首先，基于策略梯度DRL的调度方法存在高偏差，可能导致计算梯度时的低精度，第二，以前的工作放啊依赖于使用MonteCarlo方法来更新参数，这涉及到大量的计算，尤其是当轨迹中有大量的工作时。
为了去解决上述的挑战，提出了A2C调度。

2.相关工作

2.1深度强化学习中的作业调度
2.2演员评论家强化学习

3.方法和问题表述

3.1作业调度中的A2C

在这里插入图片描述

图1包含了一个actor网络，一个critic网络和集群环境，集群环境包含一个全局队列，一个后备队列和模拟的机器，队列中有等待的作业，后备队列中是队列的扩展（当没有足够的空间为等待的队列时），在每个状态下，只有队列中的工作将会被分配。

A2C的设置
Actor：策略π是一个产生可能动作概率的actor，π是s到a的映射，actor可以根据基于π所形成的的动作概率从队列中选择job ，例如，给定动作的可能性P={p1,p2,pN},有N个动作，pi表示选择动作ai的概率，如果根据最大概率选择动作（action = arg maxi∈[0,N],i∈N+ pi），actor变得贪婪，限制了agent的探索，策略由神经网络π(a|s, θ)来估计。

Critic：状态价值函数v(s)常常用来评估actor的好坏，本文中是由神经网络来估计的v(s，w)
State: s被定义为资源分配状态，包括集群的状态和在队列中的状态，S是一个有限的集合，图片包含三部分：已分配资源的状态，可用资源的状态，队列中作业请求的资源，积压等待作业的状态。调度程序只调度队列中的程序.

在这里插入图片描述

图二是状态张量表示的一个例子, 将被调度的作业数量的决策组合是2^总的job,决策为i表示选择第i个作业,

Action: at= 〖{a_t}〗_1^N表示t时刻队列中等待的作业分配策略,N是队列中等待的作业的槽数,actor的动作空间A指定在下一次迭代中队列所有可能分配的策略,给定N+1个离散的动作{∅,1,2,….N},a_t=i表示队列中第i个作业中的分配, a_t=∅表示没有分配作业的无效操作.
Environment:模拟数据中心包含CPU,RAM,I/O,还包括等待分配作业的资源管理队列系统
Discount Factor:介于0和1之间
Transition function:从当前状态转移到下一状态的概率
Reward function
Critic的损失函数
在这里插入图片描述

3.2训练算法

使用深度卷积神经网络来实现,对于actor网络,将上述资源请求和机器状态的张量作为输入,输出所有动作概率可能的分布,来表示要调度的作业,critic网络将动作和状态作为输入,输出的单个值表示对actor动作的评估.

4.实验

4.1实验计划

一个状态被传递到策略网络π。策略π下生成一个动作。执行一个无效操作，或者从全局队列中选择一个作业并放入集群中执行。然后产生一个新的状态，并收集一些奖励。状态、行动、政策和奖励被收集为轨迹。同时，状态也被传递到价值网络中以估计价值，用于评估动作的性能。
在这里插入图片描述

qq_42498154

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling with Deep Reinforcement Learning摘要：A2C调度包含两个agent，一个actor
复制链接

扫一扫