强化学习笔记: backup diagram

   backup diagram(备份图),图示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。

        这些操作将价值信息从一个状态(或状态-动作对)的后继状态(或状态-动作对)转移回来。

1 Value function的备份图

我们这里有两层加和:

  • 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值(状态s'的价值) backup 到黑色的节点。即:
  • 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。即:【我action和s是一轮的,所以不用乘γ)

 两式结合,有:

 

 这个式子用Bellman Expectation Equation也可以推导出来 

2 Q function的备份图

我们这里也有两个加和:

  • 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。即:
  • 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。即:

 两式结合,有:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值