- 关于model-based与model-free:
model-based是一个数据采样的过程,agent通过试错采集环境数据,最终根据这些数据拟合出环境的模型,然后根据这个已知了的模型求最优策略;
而model-free没法完成这个采样及拟合(因为可能不存在这样一个模型),所以只管学习在未知环境中的最优策略。
可以理解为,前者各种试错是神农尝百草,最终是为了写出一本草药书来完整地描述这个草药世界;后者放弃描述整个世界,虽然也在不停试错,但我只想知道,在这个草药世界中,我到底用哪种药才能治好这个病。
- 关于基于值和基于策略:
先捋一下强化学习过程:对一个阶段的简单描述是,agent在一个状态s下,做出一个动作a,得到一个即时的奖励r。但该过程中,它根据什么做出那个动作a呢?并不是根据那个即时的r,因为agent的特点是眼光长远而非鼠目寸光,它要的是对全局的最优,而非该阶段。
为达到这个目的,它得像一个勤恳的史官,把前面的经历记录下来,并靠回顾历史来在动作空间中选择动作a。而训练一个agent,就是要让它在这个环境中写出一本可指导、可参考的史书,以在该环境中活得漂亮。
基于值和基于策略的不同可以理解为,agent记录历史的不同方式,导致了不同类型的史书。类似于我们看到的史书,也有纪事本末体、编年体、纪传体等不同形式。
(当然了,像s、a、r这些基本信息,它们都会记录,毕竟这些是事实,史书的基础嘛。)
基于值的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按贝尔曼方程计算、调整),更新史书上的结论:s状态,采取a动作的价值Q预计为xx。下一次,它阅读史书的方式是:在s状态下,a1可以拿到10分,a2可以拿12分,所以我选a2。值派agent的史书是Q函数。
基于策略的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按梯度函数计算、调整),更新史书上的结论:到了状态s,采取a动作的概率得是xx。下一次,它阅读史书的方式是:在s状态下,用a1的概率是0.3,用a2的概率是0.7,所以我选a2。策略派agent的史书是Π(策略)函数。
对了,《三体》中三体游戏可能会帮助理解,想象那个agent就是向纣王献策的阿基米德、周文王之类,他们的目的就是为了诠释这个三体世界,以获得生存。安藤樱的那部《重启人生》也可以帮助理解这个过程,在她活了几十岁(得到了她的s、a、r)后,死去时到的那个纯白空间里,她会像agent一样,一手拿着此世的经历,一手拿着前n世的历史做总结,以在下一世活得更好、更久。这里就可以自由想象了。
如有错误,欢迎指正;如有问题,欢迎提出;如有兴趣,欢迎讨论。