这一章采取函数近似的方法,前面有提到过,状态太多的时候会考虑把策略(存疑求证,记忆里这里应该是策略,但这章提的是v函数)函数pi表示成状态的函数,只要函数的参数比状态数要少,就能起到节省空间的作用。
简单写作 v_pi(s, w) = v_pi(s)
这里的v可以是一个关于特征的线性方程,w是特征的权重,更普遍地说,v可能是一个多层神经网络而w是每一层的权重。通过调整权重。我们可以近似一个很大范围内的的函数。这里的v也可以是一个决策树,而w是是分裂点和叶子值。一般来说,参数的数量会远远低于状态的数量,同时改变一个参数能够影响到很多很多状态的预测值。反过来说就是,我们一旦更新一个状态,这一步结果会泛化到很多状态上去。这使得这一学习既强大又难以掌控。
总结一下就是两点,
- 节省空间,
- 第二点借助拟合器的泛化性。
这里我们可以联想到之前dyna算法中,用模型拟合奖励的策略,也许也能够凭借模型的泛化能力带来一些改进。