求解多变量非线性全局最优解_3.6 最优策略和最优值函数

我们知道一个强化学习问题的目的是:求解一个策略以尽可能多的获得长期回报。对于一个有限状态的MDP问题,实际上是具有最优策略的。竟然说最优,当然就有对比。就像我们利用C++标准库函数来对多个对象实例进行大小排序时,那就得传一个函数给库函数告诉它大小是怎么定义的。什么叫我比你大?策略也一样,一个策略比另一个策略好,好是什么含义?我们的定义是如果策略

所有状态 下的期望回报都比策略
大,那么就说
策略
好。换句说,也就是
当且仅当对于所有状态
满足
。那么很自然的,最优策略当然是比所有其他策略都好的策略。最优策略可能不止一个,但我们统一表示为
。他们具
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值