【Reinforcement Learning】什么是强化学习以及算法分类

一、什么是强化学习

强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。
计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法,如下图:
在这里插入图片描述

强化学习包含了很多经典的算法(在后面一节会详细说明不同的分类方式):

  • 通过价值选行为
    • Q Learning(表格学习)
    • Sarsa(表格学习)
    • Deep Q Network(神经网络学习)
  • 直接选行为
    • Policy Gradients
  • 想象环境并从中学习
    • Model based RL

二、强化学习建模

在这里插入图片描述
强化学习的思路:大脑表示算法执行个体,通过操作个体来做决策,即是选择一个行为(action);地球表示研究的环境,它有自身的状态(state),当选择行为 A t A_t At后,环境状态会发生变化,同时得到一个延迟奖励(reward)。然后个体选择下一次的行为,环境状态改变,获得奖励…

三、强化学习方法分类

分类1:不理解环境(Model-Free RL)和理解环境(Model-Based RL)
在这里插入图片描述
在这里插入图片描述
Model-Based RL多出一个虚拟环境,方法和Model-Free RL中一样。Model-Based RL具有想象力,通过想象力预判断下一步的行为,而Model-Free RL只能按部就班。
在这里插入图片描述
分类2:基于概率(Policy-Based RL)和基于价值(Value-Based RL)
在这里插入图片描述
基于概率的RL可以处理连续的东西,而基于价值不能处理,但是基于概率的缺点是概率更高,不一定会被选中。
在这里插入图片描述
分类3:回合更新(Monte-Carlo update)和单步更新(Temporal-Difference update)
在这里插入图片描述
单步更新可以边执行边更新。
在这里插入图片描述
分类4:在线学习(On-Policy)和离线学习(Off-Policy)
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.zwX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值