价值函数近似(VFA) 原因:状态太多,算力存储能力有限。只能通过插值的办法(神经网络)近似求得无法算到的状态价值函数值或状态动作价值函数值,或者是策略。如下: 方法:线性拟合,神经网络,决策树,邻近算法 有模型 无模型 两种方法来代替,1. MC;2. TD MC近似方法 TD近似方法 价值动作函数近似(AVFA) 有模型 无模型