自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 IEEE xplore免费下载论文

从IEEE xplore免费下载论文1.先从IEEE xplore上找到要下载的论文2.原始地址是https://ieeexplore.ieee.org/abstract/document/8737460在org的后面加上 .sci-hub.se3.跳转到下载的页面,即可保存下载。

2021-04-18 14:19:18 1615

原创 Learning Scheduling Algorithms for Data Processing Clusters(2)

Learning Scheduling Algorithms for Data Processing Clusters介绍我们介绍了decima,一种通用的调度服务器来服务未来阶段的数据处理,我们关注这些工作有两个原因:许多系统将将作业阶段和他们的依赖关系编码为有向无环图(DAGs)调度DAGs算法是很难的问题,器最优解是难以处理的,很难在好的启发式中捕获。Decima使用神经网络来对调度决策进行编码,通过大量的模拟实验来训练神经网络,调度一个工作负载,观察结果,逐渐的提升策略,如下图

2021-04-12 22:06:42 681

原创 Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling with Deep Reinforcement Learning摘要:A2C调度包含两个agent,一个actor

2021-04-10 17:01:10 428

原创 learning Scheduling Algorithms for Data Processing Clusters

learning Scheduling Algorithms for Data Processing Clusters1.introduction2.Motivation2.12.22.3 spark案例的解说3,spark中DAG调度问题4,概述和设计挑战5.设计5.1 可扩展的状态信息处理5.2,将调度决策编码为动作(编码调度决策作为动作)5,3训练1.introduction首先,集群作业必须扩展到数百个作业,数千个机器,,必须在每个作业的数百种配置中做出决定,这导致了更大的问题规模第二,传统的

2021-04-03 11:13:32 1442

原创 强化学习之PPO

PPO1. 概念PPO:Policy Gradient不好确定Learning rate(step size)的问题,如果因为step size过大,学出来的Policy会一直乱动,不会收敛,但如果step size太小,对于完成训练,会很长时间,因此PPO利用了New Policy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大的step size不那么敏感。PPO是基于Actor Critic 的算法。2.原理从On-policy--

2021-01-11 18:43:36 2990

原创 强化学习之DDPG

DDPG1.概念DDPG是基于Actor-Critic 的Actor-Critic + DQN = Deep Deterministic Pollicy Gradient1.动作估计网络用来输出实时的动作供actor在现实中实行,动作现实网络是用来更新价值网络系统的2.状态现实网络和状态估计网络都在输出状态的价值3.状态现实网络会拿着从动作现实网络的动作+状态的观测值加以分析,状态估计网络会拿着从actor施加过的动作当做输入一句话概括DDPG,使用的是Actor Critic结构,输出的不

2021-01-11 17:32:12 808

原创 生成对抗网络GAN(一)摘要

生成对抗网络GAN1.前序1.1.判别模型和生成模型1.2.其他GAN2.GAN的原理与组成2.1GAN原理2.2.GAN本质1.前序1.1.判别模型和生成模型1,判别模型:数学表示是y=f(x),条件概率分布为p(y|x),输入一张训练集图片时,判别模型输出分类标签y,模型学习的是输入图片x与输出的类别标签的映射关系,即在x的条件下,输出y的概率。2,生成模型:数学表示是概率分布p(x),没有约束条件的生成模型是无监督模型,将给定的简单先验分布,映射为训练集图片的像素概率分布p(x),即输出一张服

2020-12-04 23:17:36 515

原创 强化学习之Actor-Critic

强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络,他们是不同的神经网络,Actor用于预测行为的概率,Critic是预测在这个状态下的价值。结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法,Actor基于概率选行为,Critic(可以用Q-learning或者Value-based)估计每一

2020-12-04 23:16:20 14304 1

原创 强化学习之Policy Gradient

策略梯度1.什么是策略梯度2.Policy Gradient算法更新3.Policy Gradient思维决策1.什么是策略梯度1.1.策略梯度是属于强化学习的一种算法,他是Q-learning和DQN的改进,强化学习是通过奖惩来不断学习的机制,有学习奖惩的值,有根据价值选行为的Q-learning和DQN,也有不通过奖励值直接输出动作的概率Policy Gradients1.2.Policy Gradient好处:2.Policy Gradient算法更新3.Policy Gradient思维

2020-11-13 21:06:25 289

原创 强化学习之DQN

DQN一.算法详解1.1.经验池1.2.神经网络计算Q值1.3.目标函数(Q-target)二.马尔科夫决策2.1要求2.2 由5个元素构成2.3过程三.Bellman方程四.算法流程4.1公式五.代码详解一.算法详解DQN是Q-learning的改进,两者都是基于值迭代的算法。但是在Q-learning中,当状态和动作空间是离散且维数是不变时,可使用Q-table储存每个状态动作对应的Q值,而当状态和动作空间是高维连续的,需要使用Q-learning和神经网络相结合,这就成

2020-11-12 23:29:31 1128 2

原创 Resource Management with Deep Reinforcement Learning论文总结

Resource Management with Deep Reinforcement Learning算法说明:本次实验采用策略梯度强化学习算法,并附加同SJF,Packer,Tetris三种调度策略的对比。代码运行之初,可选则Sjf或者Packer进行调度,获得决策数据,运用监督学习进行神经网络的初始化。一.先进行监督学习1.监督学习流程图2.剖析监督学习流程图2.1数据收集,获取数据先用“SJF”或者“PACKER”的数据进行调度,获得决策轨迹,在这里,如果获得SJF,就进行get_s

2020-10-30 14:49:35 1299 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除