强化学习第九章总结,总结到9.3

这一章采取函数近似的方法,前面有提到过,状态太多的时候会考虑把策略(存疑求证,记忆里这里应该是策略,但这章提的是v函数)函数pi表示成状态的函数,只要函数的参数比状态数要少,就能起到节省空间的作用。

 

简单写作 v_pi(s, w) = v_pi(s)

 

 

这里的v可以是一个关于特征的线性方程,w是特征的权重,更普遍地说,v可能是一个多层神经网络而w是每一层的权重。通过调整权重。我们可以近似一个很大范围内的的函数。这里的v也可以是一个决策树,而w是是分裂点和叶子值。一般来说,参数的数量会远远低于状态的数量,同时改变一个参数能够影响到很多很多状态的预测值。反过来说就是,我们一旦更新一个状态,这一步结果会泛化到很多状态上去。这使得这一学习既强大又难以掌控。

总结一下就是两点,

  1. 节省空间,
  2. 第二点借助拟合器的泛化性。

这里我们可以联想到之前dyna算法中,用模型拟合奖励的策略,也许也能够凭借模型的泛化能力带来一些改进。(待考证)

<
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值