传统的强化学习用表格存储V或Q,但是如果状态数无限,就需要价值函数近似。
其中s,a为s和a的向量表示,而Qφ(s,a)为一个函数,通常是一个网络,输出实数。它被称为Q网络。
一、评论员(critic)
1.1
V和Q都是评论员,训练的方法有MC和TD。MC的缺点之一是方差很大。
1.2
Q函数有两种形式,如下图所示。第二种输入s,输出一个向量,向量的每一维度是一种a可能取值的概率——这种形式只适用于离散动作的情况。
1.3
用Q函数更新π之后,一定可以得到比之前更好的π
二、目标网络
时序差分中,右边的Q函数保持不动,更新左边的Q函数。若干次后,再将左边的Q函数参数复制给右边。
右边的Q函数成为目标网络。