k近邻法是一种分类和回归方法,本书只讨论分类。
k近邻法假设给定一个数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练示例的类别,通过多数表决等方式进行预测。 k近邻法实际上利用训练数据集对特征空间向量空间进行划分,并作为其分类的模型。
一.K近邻算法
二.K近邻模型
k近邻法有三个要素:k值选择,距离度量,分类决策规则。 k近邻法实际上利用训练数据集对特征空间向量空间进行划分,并作为其分类的模型。当训练集,k值,距离度量,分类决策规则确定后,其结果是唯一的。
1.模型
提出单元的概念,有什么意义?
2.距离度量
k近邻模型特征空间一般为n维实数向量空间,距离度量方法主要是欧式距离和Lp距离(距离的范数?)
3.k值的选择
k值小的情况,学习近似误差会减小,学习估计误差会增大,对近邻实例点敏感,模型复杂,易过拟合。
k值大的情况,学习估计误差会减小,学习近似误差会增大,较远实例亦会影响预测,模型简单。
k=N,模型过于简单,忽略训练示例中大量有用信息。
实际,k取较小数值,交叉验证。
4.分类决策规则
多用多数表决
三.k近邻法实现:kd树
如何构造kd树
kd树实例
如何搜索kd树
最近邻搜索实例