第3章 k 近邻法
k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题)。它的特点是对特征空间进行搜索。除了k近邻法,本章还对以下几个问题进行较深入的讨论:
- 切比雪夫距离
的计算
- “近似误差”与“估计误差”的含义
- k-d树搜索算法图解
一、算法
输入:训练集
,
为实例特征向量,
为实例的类别,
输出:实例
所属的类
设在给定距离度量下,涵盖最近k个点的邻域为
。
其中示性函数
寻找使得函数
取得最大值的变量
,也就是说,看看距离
最近的k个点里面哪一类别最多,以此作为输出。关于
的含义可参考本专栏的第一章。
mygame182:李航统计学习方法(第一章)zhuanlan.zhihu.com
二、模型
根据模型的分类,k-NN模型属于非概率模型。
观察
可发现它与感知机不同的之处,作为决策函数,它并不需要任何未知参数(感知机需要确定w和b),直接从训练集的数据得到输出。
- 距离度量
k-NN的基本思想是,特征空间中的距离反映了两个点的相似程度,因此“距离”是作出分类判断的基本依据。向量空间
的距离有多种度量方式:
(1)不同距离度量
一般形式是闵可夫斯基距离(
范数):
当p=1时,称为曼哈顿距离(
范数):
当p=2时,称