强化学习算法

最新推荐文章于 2024-04-05 21:13:40 发布

gentelyang

最新推荐文章于 2024-04-05 21:13:40 发布

阅读量1.9w

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/gentelyang/article/details/79439987

版权

机器学习专栏收录该内容

30 篇文章 2 订阅

订阅专栏

https://blog.csdn.net/AMDS123/article/details/70197796总结的不错。

强化学习算法是机器学习大家族中的一类，使用强化学习能够让机器学着如何在环境中拿到高分表现出优秀的成绩，而这些成绩背后所付出的努力，是不断的试错，不断尝试，累加经验，学习经验。

强化学习是一个大家族，包括许多中算法，比如通过行为的价值来选去特定行为的方法，抱括使用表格学习的q learning，sarsa，使用神经网络学习的deep q network，还有直接输出行为的policy gradients ，有或者了解所处的环境，想象出一个虚拟的环境病虫虚拟环境中学习等。

强化学习算法包括 Q-learning、sarsa、deep Q Network、policy Gradient、Actor Critic等等

当前机器学习算法有三种：监督学习、无监督学习和强化学习（RL）；

RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中，当前的行动不仅会影响当前的rewards，还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于：（1）：基本是一种闭环的形式；（2）不会直接指示选择哪种行动（actions）；一系列的actions和奖励信号（reward signals）都会影响之后较长时间。

RL与有监督学习、无监督学习的比较；

（1）有监督学习是从一个已经有标记的训练集中学习，训练集中每个样本的的特征可以视为是对该sitiuation的描述，而其label可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中期望行为的样例是非常不实际的，agent智能从自己的经历(experience）中进行学习，而experience中采取的行为并不一定是最优的，这是RL就是非常合适的，因为RL不是利用正确的行为进行指导，而是利用已有的训练信息来对行为进行评价。

（2）因为RL利用的并不是采取正确行动的experience，从这点看和无监督学习的确有些相像，但是还是不一样，无监督学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化reward signal。

（3）总的来说，RL与其它机器学习算法不同地方在于：其中没有监督者，只有一个reward信号，反馈是延迟的，不是立即生成的；时间在RL中具有重要意义；agent的行为会影响之后的一系列data。

RL采用的是边获得样例边学习的方式，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得reward之后再更新模型，不断迭代重复直到模型收敛。在这个过程中，非常重要的一点在于“在已有当前模型的情况下，如果选择下一步的行动才对完善当前的模型最有利”，这就涉及到了RL中的两个非常重要的概念：探索（exploration）和开发（exploitation），exploration是指选择之前未执行过的actions，从而探索更多的可能性；exploitation是指选择已执行过的actions，从而对已知的actions的模型进行完善。

举一个简单的例子，f（x）在一个未知的[a,b]的连续函数，现在让你选择一个x使得f（x）取最大值，规则是你可以通过自己给定的x来查看其所对应的f（x），假如通过[a,0]之间的几次尝试，你会发现在x1附近的时候值较大，于是你想通过在x1附近不断的尝试和逼近来寻找这个可能的最大值，这个就成为开发（exploition），但是在[0,b]之间是个未探索过的领域，这是选择这一部分就称为是exploration，如果不尽兴exploration也许只会找到局部最优的极值。exploration和exploition在RL中同等重要，如何在探索（exploration）和开发（exploition）之间权衡是RL中的一个重要问题和挑战。