【强化学习基础】一.什么是强化学习

目录

1.强化学习

2.强化学习的形式​

2.1 奖励       

2.2 智能体

2.3 环境

2.4 动作

2.5 观察


1.强化学习

        强化学习(RL)是一种介于完全监督和完全没有预定义标签之间。它会用到许多比较完善的监督学习方法来学习数据的表示

2.强化学习的形式

         上图展示了两个主要的RL尸体(智能体和环境)以及他们之间交互通道(动作,奖励和观察)

2.1 奖励       

        在强化学习中,奖励是指智能体在执行一个动作后从环境中获得的评价信号。奖励可以是正的、负的或零。正的奖励通常表示智能体做出了正确的决策,负的奖励则表示智能体做出了错误的决策,而零的奖励则表示动作不会对智能体的状态或环境产生影响。比如在金融交易中,对买卖股票的交易者来说,奖励就是收益的多少。学习成绩也是一种奖励系统,给学生提供学习反馈

2.2 智能体

         在强化学习中,智能体是通过执行确定的动作,进行观察,获得最终的奖励来和环境交互的人或物,在多数的RL情境下,智慧体就是某种软件的一部分,期望以一种有效地方法来解决某个问题。例如在金融交易中,智能体就是决定交易如何执行的交易系统或交易员;在国际象棋中,智慧体就是玩家或者计算机程序。

2.3 环境

        强化学习中的环境是一个关键组成部分,它代表智慧体所在的外部世界,智慧体与环境的交互仅限于奖励,动作以及观察。

2.4 动作

        强化学习中的动作是指智能体在特定情况下可以执行的操作,以便与环境进行交互,比如说:原神,启动!在玩原神的时候,你操作角色进行前后左右移动就是一种动作;在玩万宁象棋的时候,你控制棋子的移动也是一种动作

2.5 观察

        观察是指智慧体从环境中收集到的信息,对环境的观察就成为了智慧体的第二个信息渠道(第一个信息渠道是奖励)。观察可能与即将到来的奖励有关,也可能无关,甚至可以包含某种模糊的奖励信息,比如你玩东方风神录游戏屏幕上的分数一样。分数只是像素构成的,但是我们可以将其转为奖励值。

         如上图所示,这是黑虎阿福的老鼠走迷宫,在这个例子中,鼠鼠就是智能体环境就是鼠鼠所处的外部环境——也就是迷宫。可以看到迷宫有些地方有韭菜盒子,有些地方有闪电旋风劈,这只老鼠可以选择一些动作:左转,右转,前进等。每一时刻,鼠鼠都能观察到迷宫的整体状态,并决定采用什么动作。鼠鼠的目的是要吃到更多的韭菜盒子,并且躲开闪电旋风劈。这些韭菜盒子和闪电旋风劈就代表鼠鼠收到的奖励

图片来源于 深度强化学习实践(第二版)

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值