POMDP与MDP的一句话区别:POMDP的state具有不确定性,由七元数组定义,多了观测空间、观测函数、初始置信(belief),根据观测概率矩阵求出最可能是的状态
利用值迭代法解决POMDP问题
MDP |
POMDP |
状态→动作 |
信念状态→动作 |
信念状态:状态的概率分布
Beliefd的更新:在当前belief下,执行完动作a和得到观
POMDP与MDP的一句话区别:POMDP的state具有不确定性,由七元数组定义,多了观测空间、观测函数、初始置信(belief),根据观测概率矩阵求出最可能是的状态
利用值迭代法解决POMDP问题
MDP |
POMDP |
状态→动作 |
信念状态→动作 |
信念状态:状态的概率分布
Beliefd的更新:在当前belief下,执行完动作a和得到观