【十七】离散与维数灾难

本文讲述了在连续状态集的马尔科夫决策过程(MDP)中如何处理维数灾难的问题。离散化是一种解决方法,但随着状态维数增加会遭遇“维数灾难”。非均一离散能缓解这一问题。另外,通过模型和模拟器来生成下一状态,如使用匹配值迭代算法和静态模拟器,也是应对策略。文章还介绍了匹配值迭代算法的迭代过程。
摘要由CSDN通过智能技术生成

在上一讲中我们介绍了MDP模型,但上一讲中的情况只适应于状态集和动作集都有限的情况,今天我们将介绍如何解决状态集无限(连续)而动作集有限的情况。


离散化 Discretization

一种简单的方法是将连续的状态离散成有限个状态,当状态位于某一区间内时,均将其视为同一状态,然后进行求解。可以想到,这一方法的计算结果受到离散方式、原有状态集的特点等条件影响,并且可以看出,随着状态集维数的增长,我们离散后的状态数将按照指数上升,在状态集为2、3维的条件下,其被离散为k^2或k^3个状态,差别并不十分明显,当维数为4时,状态数为k^4,通过一些巧妙地方法也许我们也可求解,但当维数上升至6维甚至12维时,状态数增长为k^12,者将变得十分难以解决,离散化的这一问题称为维数灾难the Curse of Dimensionality

一种可以适度缓解维数灾难的方法称为非均一离散Non-uniform Discretization,即对于不同的维度,我们将其离散为不同的个数,对于我们更注重的维数,可以将其离散的更细致些,而不那么重视的可离散的更粗略些。


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值