可从三个角度理解维度灾难:
1.高维空间导致的数据不足问题
十几个维度的数据,若只选取其中两个维度表示数据,不同颜色的数据点,代表不同的类,在二维空间中,将空间划分为大小相等的格子,格子的颜色由格子内数据点的主体类别的颜色决定,对于新的数据点,它落在哪个格子中,格子的颜色对应的类别就被认为是这个新数据点的类别。然而,这仅仅是对于二维空间的,倘若提升到高维空间表示数据,那么格子的数目将会以指数爆炸式进行增长,那么就会导致有很多的格子内是没有足够的数据点占领,甚至会有大量的格子内没有任何数据点的存在,这样对于结果是存在极大的不准确性的
2.低维空间的特性不可直接推广到高维空间
低维空间的特性不可以直觉性的推广到高维空间,以高斯分布为例,高维空间中的概率分布都集中分布在球体的表面,而非低维那样靠近球体的中心,
3.维度增加导致的模型系数和参数的增加
三阶D维的多项式拟合一个函数,当我们的输入数据的D不断的增大时,多项式的系数或者说参数将会以幂指数的形式增大,虽然增大没有指数增长夸张,但对于模型来说仍然十分难handle