【强化学习基础】一.什么是强化学习

最新推荐文章于 2024-07-21 19:18:55 发布

神威爱丽丝

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量133

点赞数 2

分类专栏：强化学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_18814985/article/details/131498771

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.强化学习

强化学习（RL）是一种介于完全监督和完全没有预定义标签之间。它会用到许多比较完善的监督学习方法来学习数据的表示

2.强化学习的形式

上图展示了两个主要的RL尸体（智能体和环境）以及他们之间交互通道（动作，奖励和观察）

2.1 奖励

在强化学习中，奖励是指智能体在执行一个动作后从环境中获得的评价信号。奖励可以是正的、负的或零。正的奖励通常表示智能体做出了正确的决策，负的奖励则表示智能体做出了错误的决策，而零的奖励则表示动作不会对智能体的状态或环境产生影响。比如在金融交易中，对买卖股票的交易者来说，奖励就是收益的多少。学习成绩也是一种奖励系统，给学生提供学习反馈

2.2 智能体

在强化学习中，智能体是通过执行确定的动作，进行观察，获得最终的奖励来和环境交互的人或物，在多数的RL情境下，智慧体就是某种软件的一部分，期望以一种有效地方法来解决某个问题。例如在金融交易中，智能体就是决定交易如何执行的交易系统或交易员；在国际象棋中，智慧体就是玩家或者计算机程序。

2.3 环境

强化学习中的环境是一个关键组成部分，它代表智慧体所在的外部世界，智慧体与环境的交互仅限于奖励，动作以及观察。

2.4 动作

强化学习中的动作是指智能体在特定情况下可以执行的操作，以便与环境进行交互，比如说：原神，启动！在玩原神的时候，你操作角色进行前后左右移动就是一种动作；在玩万宁象棋的时候，你控制棋子的移动也是一种动作

2.5 观察

观察是指智慧体从环境中收集到的信息，对环境的观察就成为了智慧体的第二个信息渠道（第一个信息渠道是奖励）。观察可能与即将到来的奖励有关，也可能无关，甚至可以包含某种模糊的奖励信息，比如你玩东方风神录游戏屏幕上的分数一样。分数只是像素构成的，但是我们可以将其转为奖励值。

如上图所示，这是黑虎阿福的老鼠走迷宫，在这个例子中，鼠鼠就是智能体，环境就是鼠鼠所处的外部环境——也就是迷宫。可以看到迷宫有些地方有韭菜盒子，有些地方有闪电旋风劈，这只老鼠可以选择一些动作：左转，右转，前进等。每一时刻，鼠鼠都能观察到迷宫的整体状态，并决定采用什么动作。鼠鼠的目的是要吃到更多的韭菜盒子，并且躲开闪电旋风劈。这些韭菜盒子和闪电旋风劈就代表鼠鼠收到的奖励

图片来源于深度强化学习实践（第二版）

神威爱丽丝

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习基础】一.什么是强化学习

本文简要介绍了强化学习（RL）的基本概念和组成部分。强化学习是一种介于监督学习和无监督学习之间的学习方法，其目标是通过智能体与环境的交互来学习最佳策略。文章详细介绍了强化学习中的五个关键要素：奖励、智能体、环境、动作和观察
复制链接

扫一扫