稳定判据_强化学习与李雅普诺夫稳定判据的关系

首先简述强化学习中的价值迭代: 对于马尔科夫过程:
2924cae5ff0878f693ad9f0d896e7349.png
535e6745-4955-eb11-8da9-e4434bdf6706.svg 我们考虑在状态s,动作a会产生确定性下一状态,折扣为1的情况: 555e6745-4955-eb11-8da9-e4434bdf6706.svg 将我们考虑的优化目标设定为到达目标值的时间/距离最短,例如对于网格问题,可以迭代得到每一格的价值:
3eaace4ebb6d3beb60f0255fd5305e16.png
现在我们换一种思路,将每一步的奖励变为代价,也就是上图中的所有价值变为代价,数值也由负数变为
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值