【强化学习】Introduction

原文链接:https://www.yuque.com/yahei/hey-yahei/rl-introduction

参考:

核心思想

![image.png](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvNTA0MzI4LzE1ODk3NjM5ODgyNzEtOTEzMDI4YjMtNzc4Ni00OTU0LWEzMTAtOGUxNmI2MmNiOWFlLnBuZw?x-oss-process=image/format,png#align=left&display=inline&height=137&margin=[object Object]&name=image.png&originHeight=262&originWidth=701&size=49699&status=done&style=none&width=367)
(强化学习的基本组成)

代理Agent和环境Environment两个主体,代理通过观察环境(observation),总结出当前状况(state),然后作出决策(选项及其概率),从中选取一个动作action并执行(与环境进行交互interact),环境响应动作而做出变化,并且向代理反馈奖励reward。强化学习的目的就是让代理能够根据相应变化的环境做出使最终奖励最大化的一系列选择。

打个比方,代理观察到环境里有一杯水,并且作出打翻水杯的动作,环境响应动作变为“水杯被打翻,洒在地上”的状态,并且向代理作出惩罚(负的奖励);接下来,代理观察到环境里有一滩水,并且作出拖地的动作,环境响应变为“地板变干”的状态,并向代理作出奖励。
![image.png](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvNTA0MzI4LzE1ODk3MDE4MDU1OTctNjc1ZjE4MTgtM2QwNC00YmYwLWJmNjQtYjRmOGZmOWZkZTc5LnBuZw?x-oss-process=image/format,png#align=left&display=inline&height=275&margin=[object Object]&name=image.png&originHeight=515&originWidth=770&size=195510&status=done&style=none&width=411)
(举例:惩罚)
![image.png](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvNTA0MzI4LzE1ODk3MDE5MDgwNTktNDA2MDc4YWQtZmUzOS00OWNjLTk4MGEtM2Q1ZTBhZmJhNDRiLnBuZw?x-oss-process=image/format,png#align=left&display=inline&height=286&margin=[object Object]&name=image.png&originHeight=774&originWidth=1351&size=705764&status=done&style=none&width=500)
(举例:奖励)

代理的组成

一个代理通常由决策Policy、价值评估Value、环境建模Model其中一个或多个组成(比如AlphaGo就是由三者的组合)
![image.png](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvNTA0MzI4LzE1ODk3MDYwNDk2MDMtZjdmZGVkYzAtMDEyOC00ZWU4LWI0NjUtYmYxOGZlOWFlNDVhLnBuZw?x-oss-process=image/format,png#align=left&display=inline&height=361&margin=[object Object]&name=image.png&originHeight=469&originWidth=497&size=88207&status=done&style=none&width=383)
(代理Agent的组成)

  • Policy-based:训练一个Actor,对代理的行为进行建模,根据当前state输出一系列action的概率分布
  • Value-based:训练一个Critic,对价值进行评估,Critic跟Actor是绑定的,它将根据当前state来预测能actor之后所能取得的最大价值(其实value-based隐含了policy,毕竟能使value最大化的action就是当前状态下所要采取的最佳action)
  • Model-based:对环境进行评估,根据当前state和即将采取的action预测下一阶段的state和下一阶段的reward(适合棋类等容易预测局势变化的场景,像游戏AI就难以对环境进行建模);对应的,如果没有使用Model那么称之为Model-free的方法

特点

相比于监督学习(Supervised Learning, SL)

  • 输入数据是有时序的(而SL的输入是独立同分布的)
  • 训练时并不知道应当采取什么动作(不像SL有ground truth)
  • 试错探索,而且在训练过程中需要在探索未知(exploration)和利用已学(exploitation)之间作出平衡
  • 没有监督,只有奖励信号,而且往往是延迟奖励
  • 代理每次采取行动都会导致环境发生变化,影响下一次行动的决策
  • RL从自己的经验/经历中学习(而SL从“教师”学习,比如人类标注的标签)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值