k近邻法（K-NN）

最新推荐文章于 2024-08-11 22:50:26 发布

置顶冬浓

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量1.4w

点赞数 4

分类专栏：机器学习(Machine Learning) 文章标签： k近邻机器学习分类模型复杂度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongnongde/article/details/26280451

版权

机器学习(Machine Learning) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

K近邻法（k-NN）是一种基本的分类和回归方法。

1 K近邻法——分类

已知：训练数据集，数据集中的每一个实例由一个特征向量表示，并且显示的给出了该

实例所属的类别。

输入：一个新实例的特征向量，参数k的数值。

输出：输入实例所属的类别。

设训练集

T = { (x1,y1) , (x2,y2),...,(xN,yN) }

其中，N为训练样本个数，i = 1,2,...,N， xi为表示第i个训练样本的特征向量，yi为其对

应的类别（类别的个数与样本个数没有直接联系）。

根据给定的距离度量（如欧式距离），在训练T中找出与输入实例x距离最近的k各点，

将这k个点的集合记为Nk(x)。直观来看Nk(x)对输入实例x属于哪个类别是最有发言权的，

这也是k近邻法简单却没放弃准确度的原因。

分析Nk(x)，利用分类决策方法（如多数表决法）决定x属于哪个类别。

其中I为指示函数，当yi= cj是I为1，否则为0。

该式的含义为在Nk(x)中，哪种类别占的最多则输入实例属于哪一类，这是最简单的分类

决策方法，也可将Nk(x)中每个实例赋予一定的权值进行分类决策，这种方法对于一些类

别容量差别较大的情况效果较好。

1.1 距离度量

特征空间两个实例点的距离表示了他们的相似程度。K近邻法中使用的是欧式距离，同

样可以使用其他距离。

设k近邻法中实例特征向量为一个n维实数向量，记为，其中

上标(m) 表示向量第m维的数值。

则一般距离Lp定义为：

当p=2时就是我们常用的欧式距离。

1.2 k值的选择

k值的选择会对k近邻法的结果产生重大的影响，若选择较小的k值，学习的近似误差会

减小( 因为k值越小则选出的实例整体越接近输入实例 )；但学习的估计误差会增大( 这

种情况下容错性比较小，若近邻的实例恰巧是噪声则预测往往会出错)。此种情况模型

比较复杂容易发生过拟合。

若选择较大的k值，则学习的近似误差会增大，学习的估计误差会减少。此时模型比较

简单（举个极端的例子，当k为无穷大时所有的新输入实例都在同一类，此时模型最简单）。

1.2.1 k值与模型的复杂度

k值越小模型越复杂。

假设训练集中含有6个训练实例，并且在特征空间中按下图分布。

其中A,B,C,D,E,F是六个正方形，每个正方形正中心有一个训练实例（不用管实例属于哪

个类别），当k = 1 即最近邻法，整个特征空间被划分为一些子空间使的相同子空间内的

实例属于同一类，子空间分别为ABCDEF共六个；当k = 4时，子空间个数为两个，以直

线L划分；当 k = 6时，子空间个数为1。一般情况下虽然不同的k 值，并没有使得k近邻法

在计算机中运算的时间复杂度有所变化，但它却影响着k近邻法模型的复杂度，上述子空

间的划分就是它的一个表现，此时模型复杂度 (k = 1)>(k = 4)>(k = 6)。

1.3 分类决策规则

k近邻法中的分类决策规则往往是多数表决，即输入实例的k个近邻的训练实例中的多数

类决定输入实例的类别。多数表决规则的解释：如果分类的损失函数为0-1损失函数，

分类函数为：

f：x ——>{c 1 ,c 2 ,...,c h }

其中x为实例的特征向量， c 1 ,c 2 ,...,c h 为h个类别。

对给定的实例x，其最近邻的k个训练实例构成的集合 N k (x)，如果覆盖 N k (x)的区域的类别

是c j ，则误分类率是：

要使误分类率最小即经验风险最小，就要使所以多数表决规则等价于

经验风险最小化。

2 K近邻法——回归

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，

将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法

是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。

参考文献：统计学习方法(李航)

ps：最近接触的机器学习领域，敬请广大读者随时不吝批评指正，感谢。

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

冬浓 CSDN认证博客专家 CSDN认证企业博客

码龄14年

4: 原创

55万+: 周排名

37万+: 总排名

2万+: 访问

: 等级

235: 积分

7: 粉丝

7: 获赞

3: 评论

1: 收藏

私信

关注

热门文章

分类专栏

最新评论

k近邻法（K-NN）
Francis-Leo: 学习了解一下
文本(微博，短信等)检索——查询词扩展
littlecrab123: 对了，从慧都控件网里面了解到dtSearch Engine里面有个文档过滤器的插件很强大，集成在软件中可以实现文档不用加密并且不是密匙，只是一些特殊字符。没想到还有这么一功能
文本(微博，短信等)检索——查询词扩展
littlecrab123: 学习下，不过觉得还是dtSearch Engine比较强大，检索时间快，还可以实现全文检索，以及对所有格式的检索。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。