机器学习笔记（八）：强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

塘朗老实人

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量544

点赞数

分类专栏：机器学习文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/qq_35771020/article/details/84994660

版权

本文介绍了强化学习的基本概念，包括强化学习的目标、类型以及常用的算法，如Sarsa、Q-Learning和Policy Gradients等。通过与人类学习过程的对比，解释了强化学习如何让机器通过试错和反馈来优化决策策略，以实现最大化的奖励。

摘要由CSDN通过智能技术生成

前面我们介绍的机器学习算法都属于人工喂给机器数据，然后机器从这些数据中学得模型。而我们人类的学习过程并不是这样，人类通过自身的感官感知环境，而后从环境中获得经验、知识，因此单纯地依靠前面所介绍的方法并不能实现通用人工智能。那么有没有办法使得机器也能自动地不断从周围环境中获得经验或‘知识’呢？阿兰。图灵曾提出过这样的设想“除了试图去建立一个模拟成人大脑的程序外，为什么不试图建立一个可以模拟小孩大脑的程序呢？如果他接受适当的教育，就会获得成人的大脑。”基于这个设想，研究者们提出了强化学习（Reinforcement Learning，又译为增强学习）的概念。本文主要对强化学习的基本概念与方法进行介绍。

一、什么是强化学习（RL）？

二、强化学习的类型

三、常用的强化学习算法

一、什么是强化学习？

强化学习是从一种让agent（智能主体）自动连续做出决策的机器学习方法。其原理可归纳如下：

在强化学习中，学习者是一个能够自动做出决策的agent，它通过感知自身所处的状态（state）与环境来产生动作（action），而不同状态下的不同动作会带给agent不同的奖赏（reward）。强化学习的目标就是通过一系列的试错后找到一种最优的策略（policy），使得经过一系列的动作（actions）后，所获得的总的奖赏（reward）最大。

为方便理解，可参考下面这张图