强化学习（reinforcement learning）笔记

最新推荐文章于 2024-07-24 17:44:22 发布

明日何其多_

最新推荐文章于 2024-07-24 17:44:22 发布

阅读量755

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qsmx666/article/details/105500296

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

强化学习是一类算法, 是让计算机从零开始，通过不断地尝试, 从错误中学习, 最后找到规律, 从而达到目的的方法。用特定名词来说，就是agent会根据environment的变化采取相应的action，当结果符合我们的期望时就会得到一个正的reward，反之会得到负的reward。为了使期望reward最大化，agent会不断调整action，这就是学习的过程。
在这里插入图片描述

和监督学习的区别

强化学习通过reward调整action这点很容易让联人想到监督学习中的损失函数。两者的区别是监督学习是有标签的而强化学习无标签。
在这里插入图片描述
以下棋为例，监督学习方法是有棋谱（标签）的，机器根据棋谱调整走法。这种方法的缺陷是人类智慧有限，棋谱的方法不一定是最优的。而强化学习是从经验中学习，没有棋谱，没有人告诉机器下一步应该怎么走，完全是自发的行为，只是赢了会得到positive reward，输了会得到negtive reward。这样下很多盘棋后机器会有超出人的表现。在实际训练中，我们会训练两个agent，让它们互相下。著名的Alpha Go的训练方式是监督学习和强化学习的结合。前期用棋谱训练，等机器的技术水平到一定程度后再用强化学习的方式训练。

强化学习的难点

reward delay
仍然以下棋为例，在实际中并不是每走一步就能看到效果，有时候为了长远考虑会有短期的牺牲。
Agent’s actions affect the subsequent data it receives
比如在space invader游戏中，agent开始只会向左或向右移，我们要让它知道开火能获得reward。如何让机器探索未做过的action也是强化学习的重要任务。