- 博客(1)
- 收藏
- 关注
原创 学习笔记1-强化学习之无模型与有模型,基于值与基于策略
安藤樱的那部《重启人生》也可以帮助理解这个过程,在她活了几十岁(得到了她的s、a、r)后,死去时到的那个纯白空间里,她会像agent一样,一手拿着此世的经历,一手拿着前n世的历史做总结,以在下一世活得更好、更久。基于策略的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按梯度函数计算、调整),更新史书上的结论:到了状态s,采取a动作的概率得是xx。基于值的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按贝尔曼方程计算、调整),更新史书上的结论:s状态,采取a动作的价值Q预计为xx。
2024-03-25 16:32:12 380 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人