强化学习（RL）基本概念

qingdujun

已于 2023-07-16 22:46:27 修改

阅读量4.6k

点赞数

文章标签：深度学习

于 2018-06-09 14:57:05 首次发布

本文链接：https://blog.csdn.net/qingdujun/article/details/80632989

版权

强化学习是一个记分系统，智能体通过与环境互动，追求高奖励并避免低奖励。它包括智能体、观察、奖励、动作和环境五个组成部分。模型可分为不理解环境的model-free RL和理解环境的model-base RL，前者通过试错学习，后者利用先验知识模拟现实世界进行学习。

摘要由CSDN通过智能技术生成

强化学习不像监督学习那样有自己明确的目标，强化学习可以看成是一个记分的系统，记住及其获得低分和高分的行为，然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统，跟监督学习的标签一样。

整个强化学习系统由**智能体（Agent）、观察（Observation）、奖赏（Reward）、动作（Action）和环境（Environment）**五部分组成，系统示意图如下图所示。

![这里写图片描述](https://img-blog.csdn.net/20180609150501375?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTIzMzk3NDM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

我们根据环境将机器分为两种：不理解环境（model-free RL）和理解环境的（model-base RL）.

不理解环境（Model-free learning）——对地球一无所知…
1.机器人不懂得环境是什么样子，它会通过自己在环境中不断试错，以获得行为上的改变。
2.这类模型常用的有Q-learning（Valued-based Approach,Learning an Critic）,Policy Gradients（Policy-based Approach,Learning an Actor）.

理解环境的（Model-base learning࿰