【Reinforcement Learning】什么是强化学习以及算法分类

最新推荐文章于 2024-05-27 10:11:45 发布

Mr.zwX

最新推荐文章于 2024-05-27 10:11:45 发布

阅读量4.5k

点赞数 2

分类专栏：【强化学习】Reinforcement Learning 文章标签：算法数据挖掘强化学习

本文链接：https://blog.csdn.net/qq_16763983/article/details/123038944

版权

【强化学习】Reinforcement Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、什么是强化学习

强化学习是一类算法，让计算机从什么都不懂，通过不断尝试，从错误中学习，找到规律，从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试，更新自己的行为准则。
计算机需要一位虚拟的老师，他要做的事情就是给行为打分，计算机只需要记住高分和低分对应的行为，下一次只需要执行高分行为就能得到高分（分数导向性）。类似于监督学习中学习正确标签，不同的是，强化学习最开始没有准备好的数据和标签，是在不断的尝试中得到数据和对应的标签（奖励值）。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法，如下图：
在这里插入图片描述

强化学习包含了很多经典的算法（在后面一节会详细说明不同的分类方式）：

通过价值选行为
- Q Learning（表格学习）
- Sarsa（表格学习）
- Deep Q Network（神经网络学习）
直接选行为
- Policy Gradients
想象环境并从中学习
- Model based RL

二、强化学习建模

在这里插入图片描述
强化学习的思路：大脑表示算法执行个体，通过操作个体来做决策，即是选择一个行为（action）；地球表示研究的环境，它有自身的状态（state），当选择行为 $A_t$ 后，环境状态会发生变化，同时得到一个延迟奖励（reward）。然后个体选择下一次的行为，环境状态改变，获得奖励…

三、强化学习方法分类

分类1：不理解环境（Model-Free RL）和理解环境（Model-Based RL）
在这里插入图片描述

Model-Based RL多出一个虚拟环境，方法和Model-Free RL中一样。Model-Based RL具有想象力，通过想象力预判断下一步的行为，而Model-Free RL只能按部就班。

分类2：基于概率（Policy-Based RL）和基于价值（Value-Based RL）
在这里插入图片描述
基于概率的RL可以处理连续的东西，而基于价值不能处理，但是基于概率的缺点是概率更高，不一定会被选中。

分类3：回合更新（Monte-Carlo update）和单步更新（Temporal-Difference update）

单步更新可以边执行边更新。
在这里插入图片描述
分类4：在线学习（On-Policy）和离线学习（Off-Policy）

Mr.zwX

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Reinforcement Learning】什么是强化学习以及算法分类

一、什么是强化学习强化学习是一类算法，让计算机从什么都不懂，通过不断尝试，从错误中学习，找到规律，从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试，更新自己的行为准则。计算机需要一位虚拟的老师，他要做的事情就是给行为打分，计算机只需要记住高分和低分对应的行为，下一次只需要执行高分行为就能得到高分（分数导向性）。类似于监督学习中学习正确标签，不同的是，强化学习最开始没有准备好的数据和标签，是在不断的尝试中得到数据和对应的标签（奖励值）。强化学习是和监督学习、无监督学习并列的第三种机器学习方法
复制链接

扫一扫