强化学习
空苍地樱
这个作者很懒,什么都没留下…
展开
-
Soft Actor-Critic(论文笔记)
SoftActor-CriticSAC跟softQLearning一样在目标函数中引入熵,其目的是希望actor估计得动作在能够完成任务的基础上尽可能随机化。使得actor可以探索更多可能性,以达到近似最优(原文是near-optimal)的多种选择。假设有多个动作差不多一样好,policy应该设置每个动作有差不多一样的概率来选择他们。本文的关键点: Off-policy方式更...原创 2019-12-27 18:32:01 · 2399 阅读 · 1 评论 -
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning(论文笔记)
本文由腾讯AI Lab跟天美发表,用于王者荣耀1v1的AI训练,达成99.81%的胜率。文章分了几个部分进行讲解。大系统整个框架分为四个模块:RLLearner,AIServer,Dispatch module与MemoryPool,如下图:AIServer:此模块用当前的agent与游戏环境进行交互来收集数据,一个AIServer绑定一个cpu,agent会copy到c...原创 2019-12-25 19:23:29 · 2248 阅读 · 1 评论 -
DDPG,CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读
DDPG算法是训练一个deterministic policy来处理动作连续的问题,主要是基于DQN的思想,训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的,因为动作是离散的,取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。原始的Q-Learning的贝尔曼方程是:贝尔曼方程可以用来学习最优的Q函数,目标函数为:因为...原创 2019-10-11 20:26:05 · 593 阅读 · 0 评论 -
强化学习介绍,Policy-Gradient(包含PPO中的部分),李宏毅课程笔记(整合了Lec4的Q-Learning及Imitation Learning)
老师的PPT下载。RL与一般机器学习不同的地方:当前的动作会影响到未来。影响环境、影响接下来看到的东西。observation与State:observation是更raw的场景或图像,更原始。State是经过处理、去掉冗余后的observation。当模型能力很强的时候,例如一些游戏直接输入画面,那么observation与State就一样了。仅仅只将与环境的互动问题当...原创 2019-09-06 18:30:32 · 879 阅读 · 0 评论 -
Trust Region Policy Optimization 论文阅读与理解
本文主要讨论两个目标:1. 如何让目标函数(total reward)在policy更新时是持续递增的。2. 如何让policy在更新后的“行为”与更新前相似,而不是“参数”相近,因为参数相近的两个模型行为上可能有很大差别。第二个目标也是为了保证更新时的稳定性,因为参数上的“一小步”走错了可能导致整个模型崩溃。为此需要在行为上在与旧的policy行为有一定相似程度的情况下进行更新。这个一定的相似程...原创 2019-10-09 18:46:33 · 1469 阅读 · 0 评论 -
PPO,Proximal Policy Optimization Algorithms 论文阅读
TRPO的优化方式比较复杂,对于某些模型结构无法使用,例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化,使用目标函数的一阶导数进行policy的更新,并且更新时可以进行多次迭代,重复使用现有的数据更新policy。先看TRPO的目标函数(是surrogate的)其复杂的优化方式主要来源于那个hard的...原创 2019-10-10 20:20:58 · 1583 阅读 · 0 评论