【强化学习】model-based和model-free的理解和误区

Katniss的名字被占用

已于 2023-01-13 15:55:22 修改

阅读量956

点赞数

分类专栏： RL 强化学习文章标签：人工智能深度学习

于 2023-01-13 15:54:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42251120/article/details/128674596

版权

强化学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

强化学习的术语和概念非常多，网上博客和教程鱼龙混杂，针对model-based和model-free的解释就有很多种，现总结一些博客中常出现的误区：

【误区一】model-based和model-free的区别在于环境是否已知。

解析：环境也就是MDP四元组<S,A,R,P>，S为状态空间，A为动作空间，R是奖励函数，P是状态转移概率函数。这种说法认为只要环境知道了，那么这就是有模型的方法（❌）

【误区二】model-based和model-free的区别在于是否对环境进行建模。

解析：对环境进行建模就是通过神经网络或其他统计学习方法去拟合环境。这种说法认为对环境进行建模了就是model-based的方法（❌）

【误区三】model-based/model-free是用来形容强化学习环境的

解析：NoNoNo，其实model-based/model-free是用来形容算法是否模型相关！像下棋、迷宫，虽然环境已知，依然可以用model-based/model-free模型去求解，不是说环境已知就是model-based！model-based/model-free与问题无关，与算法有关！

【到底如何区分有模型和无模型？】

model-based需要同时满足以下两个条件：

已知环境的模型或者对环境进行建模
在决策（选择动作时）时用到了模型去预测未来的状态和奖励

区分的关键是第二个条件！
举个例子：

model-free的reinforce方法，在决策中用神经网络预测动作。然后按照正常的程序决策后就会执行，然后进入下一个状态，还会获得一定奖励；
而在model-based的决策中，可能用到神经网络预测动作，考虑这种方式会有误差，所以除此之外还会在决策中根据模型预测执行这个动作后的状态和奖励（实际上是未执行的），最终输出的决策动作根据神经网络预测的动作和根据模型预测的状态奖励综合决策。

Katniss的名字被占用

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。