强化学习State和Observation的区别

最新推荐文章于 2024-05-18 18:44:12 发布

lxlong89940101

最新推荐文章于 2024-05-18 18:44:12 发布

阅读量5.6k

点赞数 8

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxlong89940101/article/details/102509400

版权

强化学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

State和 Observation区别：

State是 Environment的私有表达，我们往往不知道不会直接到的。在 MDP 中，当前状态State（Markov state）包含了所有历史信息，即将来只和现在有关，与过去无关，因为现在状态包含了所有历史信息。举个例子，在一个遵循牛顿第二定律的世界里，我们随意抛出一个小球，某一时刻 t知道了小球的速度和加速度，那么 t之后的小球的位置都可以由当前状态，根据牛顿第二定律计算出来。再举一个夸张的例子，如果宇宙大爆炸时奇点的状态已知，那么以后的所有状态就已经确定，包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况，现实往往不会那么简单（因为这只是马尔科夫的一个假设）。只有满足这样条件的状态才叫做马尔科夫状态。即：

正是因为 State太过于复杂，我们往往可以需要一个对 Environment的观察来间接获得信息，因此就有了 Observation。不过 Observation是可以等于 State的，在游戏中，一帧游戏画面完全可以代表当前状态，因此 Observation= State，此时叫做 Full Observability

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
强化学习State和Observation的区别

State和Observation区别：State是Environment的私有表达，我们往往不知道不会直接到的。在 MDP 中，当前状态State（Markov state）包含了所有历史信息，即将来只和现在有关，与过去无关，因为现在状态包含了所有历史信息。举个例子，在一个遵循牛顿第二定律的世界里，我们随意抛出一个小球，某一时刻t知道了小球的速度和加速度，那么t之后的小球的位置都可以...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。