自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 学习笔记1-强化学习之无模型与有模型,基于值与基于策略

安藤樱的那部《重启人生》也可以帮助理解这个过程,在她活了几十岁(得到了她的s、a、r)后,死去时到的那个纯白空间里,她会像agent一样,一手拿着此世的经历,一手拿着前n世的历史做总结,以在下一世活得更好、更久。基于策略的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按梯度函数计算、调整),更新史书上的结论:到了状态s,采取a动作的概率得是xx。基于值的agent,会一手拿着这次的事实,一手拿着史书,通过思考(按贝尔曼方程计算、调整),更新史书上的结论:s状态,采取a动作的价值Q预计为xx。

2024-03-25 16:32:12 380 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除