k-NN 简单总结

最新推荐文章于 2023-04-07 16:13:15 发布

ortyi

最新推荐文章于 2023-04-07 16:13:15 发布

阅读量2k

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/ortyijing/article/details/77816719

版权

统计学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

k-NN（k-nearest neighbor）（k近邻法）：
1、适用场景：可用于分类（可用于多分类）和回归。
以下讨论分类问题。
2、综述：
不具有显式的学习过程。
利用训练数据集对特征向量空间进行划分，并作为其分类的模型。
判别模型
3、**K近邻法的三个基本要素：**k值的选择，距离度量，分类决策规则。
4、基本思想：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。
5、具体过程：
输入：训练集；实例x
输出：类别y
找邻域
根据分类决策规则决定类别。
6、距离度量：距离是相似程度的反映。k近邻模型一般使用的是欧氏距离，其他距离：
L_p距离：欧氏距离，曼哈顿距离。
由不同的距离度量所确定的最近邻点是不一样的。
7、k值的选择：
较小的k值：近似误差小，估计误差大，模型复杂，容易发生过拟合。
较大的k值：近似误差增大，估计误差变小，模型变得简单。
k=N是不可取的，忽略了训练实例中的大量有用信息。
应用中，一般会选择较小的k，通常采用交叉验证法来选取最优k值。
8、近似误差：可理解为训练误差，即与训练集的拟合程度。
估计误差：是对误差大小的估计。与函数集的大小成反比，即函数集大时，包含正解的概率越大，估计误差越小，反之。
9、分类决策规则：往往用多数表决。多数表决规则等价于经验风险最小化。
10、k近邻法的实现： kd树。
kd树：一种对k维空间中的实例点进行存储以便对其进行快速检索的树形存储结构，kd树是二叉树。
kd树的构造。
kd树的搜索：平均时间复杂度O(log N)，N是训练实例数。kd树更适用于实例数远大于空间维数时的k近邻搜索，当空间维数接近实例数时，效率会迅速下降，几乎接近线性扫描。

参考：李航《统计学习方法》

ortyi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
k-NN 简单总结

k-NN（k-nearest neighbor）（k近邻法）： 1、适用场景：可用于分类（可用于多分类）和回归。以下讨论分类问题。 2、综述：不具有显式的学习过程。利用训练数据集对特征向量空间进行划分，并作为其分类的模型。 3、**K近邻法的三个基本要素：**k值的选择，距离度量，分类决策规则。 4、基本思想：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的
复制链接

扫一扫