学习笔记1-强化学习之无模型与有模型,基于值与基于策略

本文讨论了强化学习中的model-based方法,强调其通过采样建立环境模型寻找最优策略,类似神农尝百草;而model-free则直接在未知环境中学习策略,不依赖预建模型。同时区分了基于值和基于策略的学习,前者通过Q函数记录决策过程,后者通过策略函数更新动作概率。
摘要由CSDN通过智能技术生成
  • 关于model-based与model-free:

model-based是一个数据采样的过程,agent通过试错采集环境数据,最终根据这些数据拟合出环境的模型,然后根据这个已知了的模型求最优策略;

而model-free没法完成这个采样及拟合(因为可能不存在这样一个模型),所以只管学习在未知环境中的最优策略。

可以理解为,前者各种试错是神农尝百草,最终是为了写出一本草药书来完整地描述这个草药世界;后者放弃描述整个世界,虽然也在不停试错,但我只想知道,在这个草药世界中,我到底用哪种药才能治好这个病。

  • 关于基于值和基于策略:

先捋一下强化学习过程:对一个阶段的简单描述是,agent在一个状态s下,做出一个动作a,得到一个即时的奖励r。但该过程中,它根据什么做出那个动作a呢?并不是根据那个即时的r,因为agent的特点是眼光长远而非鼠目寸光,它要的是对全局的最优,而非该阶段。

为达到这个目的,它得像一个勤恳的史官,把前面的经历记录下来,并靠回顾历史来在动作空间中选择动作a。而训练一个agent,就是要让它在这个环境中写出一本可指导、可参考的史书,以在该环境中活得漂亮。

基于值和基于策略的不同可以理解为,agent记录历史的不同方式,导致了不同类型的史书。类似于我们看到的史书,也有纪事本末体、编年体、纪传体等不同形式。

(当然了,像s、a、r这些基本信息,它们都会记录,毕竟这些是事实,史书的基础嘛。)

基于值的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按贝尔曼方程计算、调整),更新史书上的结论:s状态,采取a动作的价值Q预计为xx。下一次,它阅读史书的方式是:在s状态下,a1可以拿到10分,a2可以拿12分,所以我选a2。值派agent的史书是Q函数。

基于策略的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按梯度函数计算、调整),更新史书上的结论:到了状态s,采取a动作的概率得是xx。下一次,它阅读史书的方式是:在s状态下,用a1的概率是0.3,用a2的概率是0.7,所以我选a2。策略派agent的史书是Π(策略)函数。

对了,《三体》中三体游戏可能会帮助理解,想象那个agent就是向纣王献策的阿基米德、周文王之类,他们的目的就是为了诠释这个三体世界,以获得生存。安藤樱的那部《重启人生》也可以帮助理解这个过程,在她活了几十岁(得到了她的s、a、r)后,死去时到的那个纯白空间里,她会像agent一样,一手拿着此世的经历,一手拿着前n世的历史做总结,以在下一世活得更好、更久。这里就可以自由想象了。

如有错误,欢迎指正;如有问题,欢迎提出;如有兴趣,欢迎讨论。


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值