第十章 降维与度量学习
- k近邻学习
- 多维缩放
- 主成分分析
- 流形学习
- 度量学习
10.1 k近邻学习
- k近邻(k-Nearest Neighbor, kNN)学习是一种常用的监督学习方法
- 懒惰学习:此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。
- 急切学习: 在训练阶段就对样本进行学习处理的方法。
- 最近邻分类虽简单,但它的泛化错误率不超过贝叶斯最优分类器错误率的两倍!
10.2 低维嵌入
- 上述讨论基于一个重要的假设:任意测试样本附近的任意小的 距离范围内总能找到一个训练样本,即训练样本的采样密度足够大,或称为“密采样”。
- 在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。
- 降维:即通过某种数学变换,将原始高维属性空间转变为一个低维“子空间” (subspace),在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。
- 降维的好处:
- 算法性能
- 去噪
1. 多维缩放(MDS算法)
-
多维缩放:原始空间中样本之间的距离在低维空间中得以保持
-
对矩阵B做特征值分解后,将为0的特征值对应的特征向量去掉,取值很小的特征值也可以去掉,