1 不完全观测问题
像war3,dota之类的游戏,当前屏幕上的画面并不能完全反映出实际游戏的状态,因为观测只是地图的一小部分,屏幕上当前的画面也不能完整地反映出游戏的状态【比如屏幕上没有敌方单位,其实都在屏幕外蹲你。。。】
如果仅仅用t时刻的观测来作决策,那么是会偏离实际的。但是我们又无法知道完整的。这就是不完全观测问题了。
对于不完全观测的强化学习问题,应当记忆过去的观测,用所有已知的信息做决策。比如过去一段时间的观测是。我们把时刻1到时刻t的所有观测记作:
于是我们可以用来代替状态s,作为策略网络的输入。
于是我们策略网络就可以记作
但这里其实还存在着一个问题,就是的大小是变化的。如果都是d×1的向量,那么是一个d×t的矩阵,它的大小是随着t增长的。
一种可行的方法就是使用RNN
2 RNN (回顾)
机器学习笔记 RNN初探 & LSTM_UQI-LIUWJ的博客-CSDN博客
从t=1到t=n,依次计算
3 用RNN作为策略网络
- 在第 t 时刻,观测到,用卷积网络提取特征,得到向量 xt
- 循环层把 xt 作为输入,然后输出 ht。
- ht 是从中提取出的特征,是对所有观测 的一个概要。
-
全连接网络 把 h t 作为输入,然后输出向量 f t ,作为 t 时刻决策的依据。
-
f t 的维度是动作空间的大小 |A|,它的每个元素对应一个动作,表示选择该动作的概率。