在上一讲中我们介绍了MDP模型,但上一讲中的情况只适应于状态集和动作集都有限的情况,今天我们将介绍如何解决状态集无限(连续)而动作集有限的情况。
离散化 Discretization
一种简单的方法是将连续的状态离散成有限个状态,当状态位于某一区间内时,均将其视为同一状态,然后进行求解。可以想到,这一方法的计算结果受到离散方式、原有状态集的特点等条件影响,并且可以看出,随着状态集维数的增长,我们离散后的状态数将按照指数上升,在状态集为2、3维的条件下,其被离散为k^2或k^3个状态,差别并不十分明显,当维数为4时,状态数为k^4,通过一些巧妙地方法也许我们也可求解,但当维数上升至6维甚至12维时,状态数增长为k^12,者将变得十分难以解决,离散化的这一问题称为维数灾难the Curse of Dimensionality。
一种可以适度缓解维数灾难的方法称为非均一离散Non-uniform Discretization,即对于不同的维度,我们将其离散为不同的个数,对于我们更注重的维数,可以将其离散的更细致些,而不那么重视的可离散的更粗略些。