强化学习
文章平均质量分 93
一只楚楚猫
这个作者很懒,什么都没留下…
展开
-
强化学习之入门笔记(二)
关于AC,很多书籍和教程都说AC是DQN和PG的结合。个人觉得道理是怎么个道理,但其实是不够清晰,也很容易产生误读,甚至错误理解ACPG利用带权重的梯度下降方法更新策略,而获得权重的方法是蒙地卡罗计算G值蒙地卡罗需要完成整个游戏过程,直到最终状态,才能通过回溯计算G值,这使得PG方法的效率被限制那我们可不可以更快呢?相信大家已经想到了,那就是改为TD但改为TD还有一个问题需要解决:在PG,我们需要计算G值;那么在TD中,我们应该怎样估算每一步的Q值呢?原创 2023-03-25 19:09:25 · 606 阅读 · 0 评论 -
强化学习之入门笔记(一)
上面的定义理解起来好难,我们用“影分身”大法,理解起来就容易多了我们从S点出发,并影分身出若干个自己;每个分身按照当前的策略选择行为;每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。用大白话总结就是:从某个状态,按照策略 ,走到最终状态很多很多次;最终获得奖励总和的平均值,就是V值【敲黑板】1. 从V值的计算,我们可以知道,V值代表了这个状态的今后能获得奖励的期望。2. V值跟我们选择的策略有很大的关系。原创 2023-03-24 21:17:59 · 1138 阅读 · 0 评论