qq_42498154-CSDN博客

原创 IEEE xplore免费下载论文

从IEEE xplore免费下载论文1.先从IEEE xplore上找到要下载的论文2.原始地址是https://ieeexplore.ieee.org/abstract/document/8737460在org的后面加上 .sci-hub.se3.跳转到下载的页面，即可保存下载。

2021-04-18 14:19:18 2104

原创 Learning Scheduling Algorithms for Data Processing Clusters（2）

Learning Scheduling Algorithms for Data Processing Clusters介绍我们介绍了decima，一种通用的调度服务器来服务未来阶段的数据处理，我们关注这些工作有两个原因：许多系统将将作业阶段和他们的依赖关系编码为有向无环图（DAGs）调度DAGs算法是很难的问题，器最优解是难以处理的，很难在好的启发式中捕获。Decima使用神经网络来对调度决策进行编码，通过大量的模拟实验来训练神经网络，调度一个工作负载，观察结果，逐渐的提升策略，如下图

2021-04-12 22:06:42 795

原创 Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling with Deep Reinforcement Learning摘要：A2C调度包含两个agent，一个actor

2021-04-10 17:01:10 492

原创 learning Scheduling Algorithms for Data Processing Clusters

learning Scheduling Algorithms for Data Processing Clusters1.introduction2.Motivation2.12.22.3 spark案例的解说3，spark中DAG调度问题4，概述和设计挑战5．设计5.1 可扩展的状态信息处理5.2，将调度决策编码为动作（编码调度决策作为动作）5,3训练1.introduction首先，集群作业必须扩展到数百个作业，数千个机器，，必须在每个作业的数百种配置中做出决定，这导致了更大的问题规模第二，传统的

2021-04-03 11:13:32 1649

原创强化学习之PPO

PPO1. 概念PPO：Policy Gradient不好确定Learning rate（step size）的问题，如果因为step size过大，学出来的Policy会一直乱动，不会收敛，但如果step size太小，对于完成训练，会很长时间，因此PPO利用了New Policy和Old Policy的比例，限制了New Policy的更新幅度，让Policy Gradient对稍微大的step size不那么敏感。PPO是基于Actor Critic 的算法。2.原理从On-policy--

2021-01-11 18:43:36 3259

原创强化学习之DDPG

DDPG1.概念DDPG是基于Actor-Critic 的Actor-Critic + DQN = Deep Deterministic Pollicy Gradient1.动作估计网络用来输出实时的动作供actor在现实中实行，动作现实网络是用来更新价值网络系统的2.状态现实网络和状态估计网络都在输出状态的价值3.状态现实网络会拿着从动作现实网络的动作+状态的观测值加以分析，状态估计网络会拿着从actor施加过的动作当做输入一句话概括DDPG，使用的是Actor Critic结构，输出的不

2021-01-11 17:32:12 934

原创生成对抗网络GAN（一）摘要

生成对抗网络GAN1.前序1.1.判别模型和生成模型1.2.其他GAN2.GAN的原理与组成2.1GAN原理2.2.GAN本质1.前序1.1.判别模型和生成模型1,判别模型：数学表示是y=f(x),条件概率分布为p(y|x),输入一张训练集图片时，判别模型输出分类标签y，模型学习的是输入图片x与输出的类别标签的映射关系，即在x的条件下，输出y的概率。2,生成模型：数学表示是概率分布p(x),没有约束条件的生成模型是无监督模型，将给定的简单先验分布，映射为训练集图片的像素概率分布p(x),即输出一张服

2020-12-04 23:17:36 582

原创强化学习之Actor-Critic

强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络，他们是不同的神经网络，Actor用于预测行为的概率，Critic是预测在这个状态下的价值。结合了Policy Gradient（Actor）和Function Approximation（Critic）的方法，Actor基于概率选行为，Critic（可以用Q-learning或者Value-based）估计每一

2020-12-04 23:16:20 14803 1