深度强化学习算法分类及介绍---按on-off/按有无模型/按基于价值还是基于策略

最新推荐文章于 2023-05-04 13:01:40 发布

轻羽羽

最新推荐文章于 2023-05-04 13:01:40 发布

阅读量1.7k

点赞数 2

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25841513/article/details/105138960

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、按算法分类

1、on policy：同策学习：边决策边学习，学习者也是决策者，例如围棋AI边对弈边学习

2、off policy：异策学习：通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习，学习者和决策者不需要相同。在异策学习的过程中，学习者并不一定要知道当时的决策，例如围棋AI通过阅读人类的对弈历史来学习

二、按有无模型分类

1、有模型学习：用到了环境的数学模型，可能在学习前环境的模型就已明确、也可能环境的模型也是通过学习来获得。例如围棋AI在下棋时在完全了解游戏规则的基础上虚拟出另外一个棋盘并在虚拟棋盘上试下，通过试下来学习

2、无模型学习：不需要环境信息、不需要搭建模拟环境模型，所有的经验都是通过与真实环境交互得到

三、基于价值和基于策略

1、基于价值：基于价值的强化学习定义了状态或动作的价值函数以表示到达某种状态或执行某种动作后可以得到的回报，基于价值的强化学习倾向于选择价值最大的状态或动作

2、基于策略：不需要定义价值函数，它可以为动作分配概率分布，按照概率分布执行动作

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习算法分类及介绍---按on-off/按有无模型/按基于价值还是基于策略

一、按算法分类1、onpolicy：同策学习：边决策边学习，学习者也是决策者，例如围棋AI边对弈边学习2、offpolicy：异策学习：通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习，学习者和决策者不需要相同。在异策学习的过程中，学习者并不一定要知道当时的决策，例如围棋AI通过阅读人类的对弈历史来学习二、按有无模型分类1、有模型学习：用到了环境的数学模型，可能在学...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。