强化学习笔记：不完全观测问题

最新推荐文章于 2022-10-11 17:23:12 发布

UQI-LIUWJ

最新推荐文章于 2022-10-11 17:23:12 发布

阅读量1k

点赞数 2

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/125045744

版权

强化学习专栏收录该内容

58 篇文章 55 订阅

订阅专栏

1 不完全观测问题

像war3，dota之类的游戏，当前屏幕上的画面并不能完全反映出实际游戏的状态，因为观测只是地图的一小部分，屏幕上当前的画面也不能完整地反映出游戏的状态【比如屏幕上没有敌方单位，其实都在屏幕外蹲你。。。】

如果仅仅用t时刻的观测 o_t 来作决策，那么是会偏离实际的。但是我们又无法知道完整的 s_t 。这就是不完全观测问题了。

对于不完全观测的强化学习问题，应当记忆过去的观测，用所有已知的信息做决策。比如过去一段时间的观测是 $o_1,\dots,o_t$ 。我们把时刻1到时刻t的所有观测记作：

于是我们可以用 $O_{1:t}$ 来代替状态s，作为策略网络的输入。

于是我们策略网络就可以记作

但这里其实还存在着一个问题，就是 $O_{1:t}$ 的大小是变化的。如果 $o_1,\dots,o_t$ 都是d×1的向量，那么 $O_{1:t}$ 是一个d×t的矩阵，它的大小是随着t增长的。

一种可行的方法就是使用RNN

2 RNN （回顾）

机器学习笔记 RNN初探 & LSTM_UQI-LIUWJ的博客-CSDN博客

从t=1到t=n，依次计算

3 用RNN作为策略网络

在第 t 时刻，观测到，用卷积网络提取特征，得到向量 xt
循环层把 xt 作为输入，然后输出 ht。
ht 是从 $x_1,\dots,x_t$ 中提取出的特征，是对所有观测 $o_1,\dots,o_t$ 的一个概要。
全连接网络把 h t 作为输入，然后输出向量 f t ，作为 t 时刻决策的依据。
f t 的维度是动作空间的大小 |A|，它的每个元素对应一个动作，表示选择该动作的概率。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习笔记：不完全观测问题

1 不完全观测问题像war3，dota之类的游戏，当前屏幕上的画面并不能完全反映出实际游戏的状态，因为观测只是地图的一小部分，屏幕上当前的画面也不能完整地反映出游戏的状态【比如屏幕上没有敌方单位，其实都在屏幕外蹲你。。。】如果仅仅用t时刻的观测来作决策，那么是会偏离实际的。但是我们又无法知道完整的。这就是不完全观测问题了。对于不完全观测的强化学习问题，应当记忆过去的观测，用所有已知的信息做决策。比如过去一段时间的观测是。我们把时刻1到时...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。