一 解决的问题
由k近邻算法引出,k近邻算法需要满足密采样,稀疏数据无法获取特定距离的近邻。
但是现实问题中,数据属性非常多,形成高维空间,然而在高维空间下的计算量大,并且满足不了密采样的要求。
于是,提出降维的方法,希望通过降维在低维空间映射出密采样,也易于学习。
如何降维才能保证仍然保存高维空间数据的特征的呢?
一种方法:希望在高低维空间,样本之间的距离是不变的,称为多维缩放,简称MDS。
第二种方法:希望在高低维空间,邻域样本之间形成的线性组合关系是不变的,属于流行学习中的局部线性嵌入,简称 LLE。
另一种思路是,并不定义以什么度量方法进行问题的解答,而是让模型自己学习一种度量方法,得到度量矩阵,最后使错误率尽可能小。如果度量矩阵是一个低秩矩阵,就可以达到降维的目的。
二 概念总结
三 习题
习题10.1 k近邻分类器对西瓜数据集3.0α进行分类,比较边界与决策树的异同。
数据集: 西瓜数据集3.0α
import numpy as np
data = np.loadtxt('./CH3-3watermeleondata.csv',delimiter