【强化学习】Bellman Equation Derivation （贝尔曼方程的推导）

最新推荐文章于 2024-05-11 22:43:53 发布

sunflower_level1

最新推荐文章于 2024-05-11 22:43:53 发布

阅读量447

点赞数

文章标签：机器学习强化学习 RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agent_snail/article/details/123898193

版权

Bellman Equation Derivation:

Return( $G_{t}$ ) 说的是把奖励进行折扣后所获得的收益。
State value function( $V_{t}(s)$ )是MRP(Markov Reward Process, $< s, r, s^{'} >$ )的return的期望。可以定义为如下形式：
$E[G_{t}|s_{t} = s] \\= E[ R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... + \gamma^{T-t-1} R_{T}|s_{t} = s] \\= E[ R_{t+1}|s_{t} = s] + E[ \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... + \gamma^{T-t-1} R_{T}|s_{t} = s] \\= R(s) + \gamma E[R_{t+2} + \gamma R_{t+3} + ... + \gamma^{T-t-1} R_{T}|s_{t} = s = R(s) + \gamma E[G_{t+1}|s_{t} = s]$ 根据如下等式，记性贝尔曼方程的推导：
$E[V(s_{t+1})|s_{t}] = E[E[G_{t+1}|s_{t+1}]|s_{t}] = E[G_{t+1}|s_{t}]$ (这个等式用Law of Total Expectation: $\sum_{i}E(X|A_{i})P(A_{i})$ 进行推导，推导过程：推导过程) $V(s_{t+1}) = E[G_{t+1}|s_{t+1}] = G_{t+1} \\ \Rightarrow V(s_{t+1}) = G_{t+1}$ $\gamma E[G_{t+1}|s_{t} = s]\\ = R(s) + \gamma E[V(s_{t+1})|s_{t} = s]\\ = R(s) + \gamma \sum_{s'\in S} P(s'|s)V(s_{t+1})$

sunflower_level1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】Bellman Equation Derivation （贝尔曼方程的推导）

Bellman Equation Derivation:Return(GtG_{t}Gt) 说的是把奖励进行折扣后所获得的收益。State value function(Vt(s)V_{t}(s)Vt(s))是MRP(Markov Reward Process,<s,r,s′><s, r, s'><s,r,s′>)的return的期望。可以定义为如下形式：V(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+...+γT−t−1RT∣st=s
复制链接

扫一扫

sunflower_level1 CSDN认证博客专家 CSDN认证企业博客

码龄6年

40: 原创

8万+: 周排名

12万+: 总排名

9万+: 访问

: 等级

854: 积分

15: 粉丝

90: 获赞

17: 评论

214: 收藏

私信

关注

热门文章

分类专栏

python 4篇
强化学习 2篇

最新评论

【Texstudio深色模式】
xnnjsjsnn: 你可以在在内部查看器里面右击，选择反色。
Pytorch | GPU | 将代码加载到GPU上运行
weixin_47561700: 请问您知道yolov5中怎样将自定义的模块放进cuda里面吗？
Pytorch | GPU | 将代码加载到GPU上运行
只会划水的小白: 放在cuda上的有三个东西，一个是你要输入到模型里面的样本数据（包括训练和验证还有测试，这些要输入的数据必须与model所在的device(cuda编号或者cpu）一致才行），一个就是模型，还有一个就是损失函数，因为损失函数的计算也是在cuda上并行进行的，另外还有就是检查下你加入到cuda上的方式对不对。
Pytorch | GPU | 将代码加载到GPU上运行
Mozart086: 你的环境里是否安装了pytorch-gpu？
Pytorch | GPU | 将代码加载到GPU上运行
牙不好: 为什么模型，数据，target都放到cuda上面了，但是还在用cpu跑

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。