学习笔记1-强化学习之无模型与有模型，基于值与基于策略

最新推荐文章于 2024-07-18 21:11:52 发布

可乐要喝就喝全糖

最新推荐文章于 2024-07-18 21:11:52 发布

阅读量380

点赞数 1

文章标签：学习笔记

本文链接：https://blog.csdn.net/m0_52948542/article/details/137018286

版权

本文讨论了强化学习中的model-based方法，强调其通过采样建立环境模型寻找最优策略，类似神农尝百草；而model-free则直接在未知环境中学习策略，不依赖预建模型。同时区分了基于值和基于策略的学习，前者通过Q函数记录决策过程，后者通过策略函数更新动作概率。

摘要由CSDN通过智能技术生成

关于model-based与model-free：

model-based是一个数据采样的过程，agent通过试错采集环境数据，最终根据这些数据拟合出环境的模型，然后根据这个已知了的模型求最优策略；

而model-free没法完成这个采样及拟合（因为可能不存在这样一个模型），所以只管学习在未知环境中的最优策略。

可以理解为，前者各种试错是神农尝百草，最终是为了写出一本草药书来完整地描述这个草药世界；后者放弃描述整个世界，虽然也在不停试错，但我只想知道，在这个草药世界中，我到底用哪种药才能治好这个病。

关于基于值和基于策略：

先捋一下强化学习过程：对一个阶段的简单描述是，agent在一个状态s下，做出一个动作a，得到一个即时的奖励r。但该过程中，它根据什么做出那个动作a呢？并不是根据那个即时的r，因为agent的特点是眼光长远而非鼠目寸光，它要的是对全局的最优，而非该阶段。

为达到这个目的，它得像一个勤恳的史官，把前面的经历记录下来，并靠回顾历史来在动作空间中选择动作a。而训练一个agent，就是要让它在这个环境中写出一本可指导、可参考的史书，以在该环境中活得漂亮。

基于值和基于策略的不同可以理解为，agent记录历史的不同方式，导致了不同类型的史书。类似于我们看到的史书，也有纪事本末体、编年体、纪传体等不同形式。

（当然了，像s、a、r这些基本信息，它们都会记录，毕竟这些是事实，史书的基础嘛。）

基于值的agent，会一手拿着这次的事实，一手拿着史书，通过思考（按贝尔曼方程计算、调整），更新史书上的结论：s状态，采取a动作的价值Q预计为xx。下一次，它阅读史书的方式是：在s状态下，a1可以拿到10分，a2可以拿12分，所以我选a2。值派agent的史书是Q函数。

基于策略的agent，会一手拿着这次的事实，一手拿着史书，通过思考（按梯度函数计算、调整），更新史书上的结论：到了状态s，采取a动作的概率得是xx。下一次，它阅读史书的方式是：在s状态下，用a1的概率是0.3，用a2的概率是0.7，所以我选a2。策略派agent的史书是Π（策略）函数。

对了，《三体》中三体游戏可能会帮助理解，想象那个agent就是向纣王献策的阿基米德、周文王之类，他们的目的就是为了诠释这个三体世界，以获得生存。安藤樱的那部《重启人生》也可以帮助理解这个过程，在她活了几十岁（得到了她的s、a、r）后，死去时到的那个纯白空间里，她会像agent一样，一手拿着此世的经历，一手拿着前n世的历史做总结，以在下一世活得更好、更久。这里就可以自由想象了。

如有错误，欢迎指正；如有问题，欢迎提出；如有兴趣，欢迎讨论。

可乐要喝就喝全糖

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
学习笔记1-强化学习之无模型与有模型，基于值与基于策略

安藤樱的那部《重启人生》也可以帮助理解这个过程，在她活了几十岁（得到了她的s、a、r）后，死去时到的那个纯白空间里，她会像agent一样，一手拿着此世的经历，一手拿着前n世的历史做总结，以在下一世活得更好、更久。基于策略的agent，会一手拿着这次的事实，一手拿着史书，通过思考（按梯度函数计算、调整），更新史书上的结论：到了状态s，采取a动作的概率得是xx。基于值的agent，会一手拿着这次的事实，一手拿着史书，通过思考（按贝尔曼方程计算、调整），更新史书上的结论：s状态，采取a动作的价值Q预计为xx。
复制链接

扫一扫