![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
李弘毅深度强化学习笔记
魏小侠
简单的一个学生
展开
-
李弘毅深度强化学习笔记【1 Policy Gradient 】
强化学习得三个主要要素:actor(智能体本身),env(环境),reward function(奖励) 但是环境我们是无法改变得,reward我们也无法改变,唯一可以改变得是智能体得动作 智能体得策略:策略Π就是智能体在环境s得情况下选择行动a的概率 在policy gradient的算法中,我们用神经网络来拟合策略policy。神经网络的参数。 神经网络的输入是机器的观测值(可...原创 2019-04-16 12:44:19 · 344 阅读 · 0 评论 -
【李弘毅深度强化学习】2,Proximal Policy Optimization (PPO)
这一节主要讲解的是policy gradient从on policy 到off policy的转变 on policy:和环境交互的agent和要学习的agent是一个agent。举个例子就是阿光自己下棋,并且学习如何下棋。自己在探索,自己在学习。 off policy:和环境交互的agent和要学习的agent不是一个agent。举个例子就是阿光看佐为下棋,阿光在学习。就是说agen...原创 2019-04-17 18:19:23 · 599 阅读 · 0 评论 -
【李弘毅深度强化学习】3,Q-learning (Basic Idea)
这部分主要讲解一下Q-learning部分的知识 这里介绍一下critic:给定一个critic,并不会明确的指出需要做出什么动作,当给予一个actor一个策略Π的时候,critic会给出这个策略的分数,vΠ:当actor在状态s的时候选择策略Π,之后衡量这个actor在这个状态s的价值。中间这个图片的v值就是很大的,因为还有很多怪没有打,并且还有阻挡敌人的盾牌,但是右边这个图片的vΠ值...原创 2019-04-25 17:37:33 · 226 阅读 · 0 评论 -
【李弘毅深度强化学习】8.Imitation Learning
本节课我们主要研究的是“Imitation Learning”(模仿学习) Imitation Learning也被叫做“示范”或者“学徒学习” 使用这种方法的情况通常是这样的:1,agent可以和环境进行交互,但是通常是无法获得具体明确的reward。2,在一些实验中是无法明确定义reward的。3,有的时候我们定义的reward是不准确的,容易造成很大困扰的 虽然reward是很难定...原创 2019-05-19 15:38:55 · 1865 阅读 · 0 评论 -
【李弘毅深度强化学习】4,Q-Learning (Advanced Tips)
这节课我们主要思考的问题是提升DQN得一些小tips,其中第一个就是double DQN。 其中红色锯齿状得线就是使用最初的DQN所得到得Q估计得值,之后红色的直线是DQN算法所得到的真实的Q值。蓝色锯齿状线是使用double DQN所得到的Q估计值,蓝色直线是double DQN算法得到的真实的Q值。 我们可以看到使用DQN得到的Q估计都是比较大的,这就是我们所说的DQN往往会高估。红色...原创 2019-05-19 17:01:06 · 269 阅读 · 0 评论 -
【李弘毅深度强化学习】 5.Q-learning (Continuous Action)
Q Learning是一种很好的方法,但是q learning很难处理连续动作的情况。因为q学习是基于值得,如果动作连续,q表太大,则很难计算。 但是凡是问题都有解决的方法,如何解决Q Learning难以应对连续动作得问题呢! 解决方法一:在连续得动作中,我们sample采样出一部分n个,将其变成有限动作的问题。但是这种方法的缺点就是采样不完整,可能会造成以后的问题 解决方法二:我们用...原创 2019-05-19 17:27:29 · 481 阅读 · 0 评论 -
【李弘毅强化学习】6.Actor-Critic
这次课讲解的是A3C,我们先来复习一下policy gradient和Q-learing的知识。 这是PG的形式,我们把小括号中的内容叫做G,G是一堆马尔可夫链的收益和,并且抽样出一部分。但是这个过程是十分不稳定的,因为抽样的时候不知道具体会抽样那个马尔可夫链,例如下图,有的G是100,有的G是-10.如果抽到这两个,那么训练效果肯定是极差的。一般情况下我们都是把G全部求出来,之后再求期...原创 2019-05-16 18:37:00 · 373 阅读 · 0 评论 -
【李弘毅强化学习】7.Sparce Reward
在现实生活中我们强化学习实验中我们经常会遇到的一种情况是:reward过于稀疏,导致强化学习的训练是十分艰难的。举个例子:在一张桌子上训练一个机器人用螺丝刀去拧螺丝,机器手臂很多时候都是没有reward(reward很多时候都是为零的)的,在这种情况下,因为reward一直是0,所以很难去更新,在这种情况下,我们应该怎样才可以完成对强化学习的更新呢! 第一种方法就是Reward Shapin...原创 2019-05-16 21:30:37 · 1246 阅读 · 0 评论