K-NN Algorithm（K-NN算法原理）

最新推荐文章于 2022-11-25 21:33:51 发布

TLDX-XIONG

最新推荐文章于 2022-11-25 21:33:51 发布

阅读量414

点赞数 1

分类专栏：机器学习文章标签：算法机器学习深度学习人工智能

本文链接：https://blog.csdn.net/TLDX_XIONG/article/details/108111097

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

$\text{k}$ 近邻法（ $\text{k-nearest neighbor}$ ) 是一种基于分类和回归的方法，这里我们只讨论分类问题的 $\text{k}$ 近邻法。 $\text{k}$ 近邻输入为实例点的特征向量，输出为实例所属类别。 $\text{k}$ 近邻假定给定了一个训练数据集，其中的实例类别已经确定。分类时，对新的实例，根据其 $\text{k}$ 个最近的训练实例的类别，通过多数表决等方式进行预测。

1. 算法描述

$\textbf{Input:}$
$T=\{ (x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N) \}$
其中， $x_i \in X \subseteq \bf{R^n}$ 为实例的特征向量， $y_i \in Y=\{ c_1,c_2,\ldots,c_K \}$ 为实例的类别， $i=1,2,\ldots,N$ ;
$\textbf{Output:}$
$y=\arg\underset{c_j}{\max}\sum_{x_i\in N_k\left( x \right)}{I\left( y_i=c_j \right) ,\ i=1,2,\ldots,N;\ j=1,2,\ldots,K}$
其中， $N_k(x)$ 为涵盖最近的 $\text{k}$ 个点的邻域； $\text{I}$ 为指示函数，即当 $y_i=c_j$ 时为1，否则为0。通过分类决策规则（多数表决）决定 $x$ 的类别 $y$ 。

2. 距离向量

特征空间中两个实例点的距离是两个样本相似程度的反映。 $\text{k}$ 近邻模型使用的距离一般是欧式空间的欧氏距离，但也可以是其它距离，如一般的 $L_p$ 距离（ $L_p \text{ distance}$ ）或者 $\text{Minkowski}$ 距离（ $\text{Minkowski distance}$ ）。
设特征空间 $X$ 是 $n$ 维实数向量空间 $\bf{R^n}$ ， $x_i,x_j \in X, x_i=(x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})$ ， $x_i,x_j$ 的 $L_p$ 定义为：
$L_p(x_i,x_j)=(\sum_{i=1}^{n}{\Vert x_i^{(l)}-x_j^{(l)} \Vert}^p)^{\frac{1}{p}}$
这里 $\ge 1$ ，当 $n = 2$ 时，就成为欧氏距离，即
$L_p(x_i,x_j)=(\sum_{i=1}^{n}{\Vert x_i^{(l)}-x_j^{(l)} \Vert}^2)^{\frac{1}{2}}$
当 $p = 1$ 时，称为曼哈顿距离，即
$L_p(x_i,x_j)=\sum_{i=1}^{n}{\Vert x_i^{(l)}-x_j^{(l)} \Vert}$
当 $p=\infty$ 时，它是各个坐标距离的最大值，即
$L_p(x_i,x_j)=\underset{i}{\max}\Vert x_i^{(l)}-x_j^{(l)} \Vert$

3. $\text{k}$ 值选择

$\text{k}$ 值的选取会对最终分类结果产生较大的影响。

如果 $\text{k}$ 值过小，则学习的近似误差会下降，只有更输入实例相近的实例点才会起预测作用。但缺点是学习的估计误差会增大，预测结果对近邻的实例点非常敏感，如果实例点恰好是噪声，预测就会出错。容易发生过拟合。
如果 $\text{k}$ 值过大，优点是可以减少学习的估计误差，但缺点是会造成近似误差的增大。这使与输入实例较远的训练实例也会对预测起作用，使预测发生错误。

因此，需要多次尝试不同 $\text{k}$ 值，然后选取最佳 $\text{k}$ 值。通常做法是使用交叉验证来选取最优 $\text{k}$ 值。

TLDX-XIONG

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
K-NN Algorithm（K-NN算法原理）

k\text{k}k 近邻法（k-nearest neighbor\text{k-nearest neighbor}k-nearest neighbor) 是一种基于分类和回归的方法，这里我们只讨论分类问题的 k\text{k}k 近邻法。k\text{k}k 近邻输入为实例点的特征向量，输出为实例所属类别。 k\text{k}k 近邻假定给定了一个训练数据集，其中的实例类别已经确定。分类时，对新的实例，根据其 k\text{k}k 个最近的训练实例的类别，通过多数表决等方式进行预测。
复制链接

扫一扫