【课程学习】强化学习基础

最新推荐文章于 2024-10-06 20:54:02 发布

YuuZhao

最新推荐文章于 2024-10-06 20:54:02 发布

阅读量802

点赞数 20

文章标签：学习

本文链接：https://blog.csdn.net/YuuZhao/article/details/135691613

版权

课程介绍

1、强化学习作为Google 全球搜索主流领域趋势，在近年来影响度关注度超过了计算机视觉和自然语言处理。

2、强化学习来源于心理学的行为主义理论，历史可追溯到上世纪60年代，近年来在控制领域，游戏领域得到了非常成功的应用。

3、其主要思维来自心理学领域行为注意理论，机器学习很多算法来自人的学习机制，人有很多学习机制，监督学习算法、非监督学习算法，强化学习就是其中一种。

4、并不是所有事情都有先例，问题需要去发现，这种情况下，无监督学习就发挥一定效果了，与环境进行交互，得到环境的反馈，做对了就可以把强化，决策方法进行确定。

5、如果做错了有惩罚，做对了有奖励。

7、强化学习不需要事先准备样本集，无监督学习和监督学习需要事先准备样本，可以通过试错积累经验从而修正策略。

8、强化学习作为智能体，如何把学习机制通过强化学习机制呈现，这就是强化学习算法。

9、强化学习通过与环境的交互，作为一类独立的算法，和其他的机器学习机制有差别，重要看它的独特性，这种学习的机制是通往未来通用智能高级智能的方案。

10、无监督学习、监督学习都需要大量数据，在一定程度上和人的机制是有差别的。

11、而强化学习实际上是人类行为高级智能的模拟，人类的智能赋予机器，我们既要使用无监督和监督学习，也需要机器有自适应学习，学习的机制不需要别人去监督。

12、强化学习的应用：早期可以做控制，后来深度学习的发展对强化学习的训练得到了非常的应用，深度学习可以和强化学习有补充的方面，蛋白质课程， ChatGPT , 新闻推荐，无人车，电商推荐领域都有广泛应用，尤其在游戏领域。

13、腾讯开悟平台，机器通过训练可能超过一般的玩家，则体现了深度学习的特点。

强化学习基本概念

1、强化学习是通过试错进行的。
2、强化学习不需要标记数据，只需要和环境交互。
3、成功应用在：推荐系统、机器人等会。

强化学习的特点

1、试错学习：没有大量先例可以参照，监督学习和非监督学习都有样本可以参照，那么试错如何做，可以使用一些不成熟的策略，通过不成熟的策略和环境交互。
比如机器人抓取物体，握量就是控制量，抓对了，环境就有一个正反馈，我们就给机器人一个强化的信号，在某一状态下面如何采取行动主要通过策略行动。
训练智能体也就是训练策略，在什么情况下做什么事情能获得环境最大的回报。
2、延迟反馈：和环境交互时对还是错，环境会给一个反馈，我们不一定很快能得到一个奖励，很可能这一局全部结束后才能知道前面的动作是否执行对了。

3、过程性学习：强化学习通过不断和环境试错，需要和环境、对手、可以在某一个棋盘的状态下面，走很多步，直到这一局完成得到胜负。这就是目标，下棋的目标就是赢过对方，不是一步能够完成的，并不是一步能训练很高的，每一个步骤都需要试错，通过环境的反馈不断修正它的策略。、

4、环节之间的行为相关性：每一个环节的决策带有相关性，前面环节如果出错了，可能负面作用会传播下去，在过程中我们希望每一步都能获得比较好的决策，所以在训练策略时，不仅要关注每一个环节，还要从整个流程的角度获得最大的回报。

5、探索和利用的综合：在训练的过程要注意探索和利用的平衡，刚开始智能体不成熟，经常受到惩罚，这种情况下要加重探索，大幅度修改智能体的策略，这就会有很多算法；到后来智能体做的比较专业，就要逐步降低探索的比例，把学好的策略用起来。

例如，下围棋，在某一时刻有很多走法，就有很多行为，称为行为1、2、3, 从状态A执行了行为1后就到了状态A ，行为2就到了状态B ，得到的回报不一样。

最初智能体处于混沌状态，不会一开始就得到最好的回报，在初始化智能体时，每一个行为都初始化0 &#x