我认为本文是学习率为1的Q-learning。为什么这么讲呢?
根据Q-learning算法:
更新一个状态行为对的Q价值时,采用的不是当前遵循策略的下一个状态行为对的Q价值,而是采用的待评估策略产生的下一个状态行为对的Q价值。公式如下:
![](https://i-blog.csdnimg.cn/blog_migrate/7e03e03063b2d4321f95aee7f34f705a.png)
式中,红色部分的TD目标是基于另一个评估策略
产生的行为
得到的
价值。Q学习最主要的表现形式是:个体遵循的策略是基于当前状态行为价值函数
的一个
策略,而目标策略是基于当前状态行为价值函数
不包含
的单纯
![\pi](https://i-blog.csdnimg.cn/blog_migrate/8633e7f70d4f52f28918dc41be8e0caf.png)
![A'](https://i-blog.csdnimg.cn/blog_migrate/f9b74dc51727ec1bccb22b1348f100bd.png)
![Q](https://i-blog.csdnimg.cn/blog_migrate/7eb07b9945057f1450fb6a4622fb9783.png)
![Q(s,a)](https://i-blog.csdnimg.cn/blog_migrate/7eb07b9945057f1450fb6a4622fb9783.png%28s%2Ca%29)
![\epsilon-greedy](https://i-blog.csdnimg.cn/blog_migrate/a7bc1a2bdb7f35287e3611d94380c074.png)
![Q(s,a)](https://i-blog.csdnimg.cn/blog_migrate/7eb07b9945057f1450fb6a4622fb9783.png%28s%2Ca%29)
![\epsilon](https://i-blog.csdnimg.cn/blog_migrate/9d83d5a736cfe878f7d1f9052bd2ee7b.png)