近邻分析：数据预测

睡觉前

已于 2023-06-28 10:34:09 修改

阅读量1.8k

点赞数 17

分类专栏：数据挖掘相关知识点文章标签： r语言数据挖掘数学建模

于 2023-06-23 12:49:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cy14713147/article/details/131349166

版权

数据挖掘相关知识点专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章介绍了K-近邻(KNN)算法，包括最近邻法的基本思想和决策规则，分析了错误率与样本数量的关系，并探讨了K的选择，如旁置法和留一法。KNN算法简单有效，但对数据存储和计算需求高，适用于低维度和边界不规则的分类问题。

摘要由CSDN通过智能技术生成

文章目录

目录

二、最近邻法

1.最近邻法-决策规则

2. 最近邻法 —错误率分析

三.K-近邻法

四.关于K的选择

一、引言

最小距离分类器: 它将各类训练样本划分成若干子类，并在每个子类中确定代表点。测试样本的类别则以其与这些代表点距离最近的样本类别作为决策类别。该方法的缺点是所选择的代表点并不一定能很好地代表各类，其后果将使错误率增加。

近邻法: 最小距离分类器的一种极端的情况，以全部训练样本作为代表点，计算测试样本与所有样本的距离，并以最近邻者的类别作为决策。

最初的近邻法是由Cover和Hart于1967年提出的，随后得到理论上深入的分析与研究，是非参数法中最重要的方法之一。

二、最近邻法

1.最近邻法-决策规则

最近邻法：nearest neighborhood classifier (nnc)，将与测试样本最近邻样本的类别作为决策的结果。对一个C类别问题，每类有Ni个样本，i＝1，…，C，则第i类ωi的判别函数为：

决策规则:

最近邻法在原理上最直观，方法上也十分简单只要比较x与个已知类别的样本之间的欧氏距离，并决策x与离它最近的样本同类。明显的缺点就是计算量大，存储量大。

2. 最近邻法 —错误率分析

近邻法的错误率很难计算，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。如图中所示:

当最近邻法所使用的训练样本数量N不是很大时，其错误率是带有偶然性的。为了说明这一点用如图所示一个在一维特征空间的两类别情况来讨论。

1.当最近邻法应用于特定的一组样本时，所得到的错误率与样本的偶然性有关。

2.特别是用不同组的N个样本对x进行分类的话，则x的最近邻可能是不相同的x’。

3.由于决策完全取决于该最近邻样本，所以条件错误率是PN(e|x,x’)，它同x和x’都有关系。若对x’取平均，可得给定x时的条件错误率.

三.K-近邻法

Knn分类算法描述：

(1)计算已知类别数据及其中的样本点与当前样本点的距离；

(2)按距离递增次序排序.

(3)选取与当前样本点距离最小的k个样本点

(4)确定前K个样本点所在类别出现的频率

(5)返回频率最高的类别作为当前样本的预测类别

这就是k-近邻法的基本规则。若分错，则风险很大，错误率大，损失大。考虑到风险(损失)问题，对ki加以约束，若

k近邻一般采用k为奇数，跟投票表决一样，避免因两种票数相等而难以决策。

最近邻法和k-近邻法都有方法简单的优点，而且分类效果比较好，类似可证其错误率为

由于P*一般很小，因此上式可近似表示为

即近邻法错误率在Bayes错误率P*和两倍Bayes错误率2P*之间。正因为此优良性质，使其成为模式识别的重要方法之一。

优点：

- 简单有效

- 对数据的分布没有要求

- 训练阶段很快

缺点：

- (1)不产生模型，在发现特征之间关系上的能力有限

- (2)分类阶段很慢，需要大量的内存 ：需要将所有样本存入计算机中，每次决策都要计算待识别样本x与全部训练样本，i =1，2，…，c，k = 1，2，…，Ni之间的距离并进行比较

- (3)分类变量（特征）和缺失数据需要额外处理

（4）要求样本数N → ∞，这在任何实际场合是无法实现的。

（5）近邻法只适用于特征空间维度较低且边界不规则情况下的分类或回归预测

四.关于K的选择

K-近邻法中的近邻个数

最简单情况下只需找到距离X0最近的一个近邻Xi，即参数K=1（1-近邻）

1-近邻法非常简单，尤其适用于分类预测时，特征空间维度较低且类别边界极不规则的情况

1-近邻法只根据单个近邻进行预测，预测结果受近邻差异的影响极大，通常预测波动（方差）性较大，稳健性低。

可通过增加近邻个数K以提升预测的稳健性

增加K会导致分类边界趋于平滑，预测误差增大，依据对预测误差的接受程度设置参数K，是一种可取的方式。

1.旁置法

将整个样本集随机划分为训练样本集和测试样本集。利用训练样本集建立预测模型，对测试样本集做预测并计算其预测误差。该预测误差也称为测试误差将作为模型预测误差的估计旁置法适合样本量较大的情况。

2.留一法

在包含n个观测的样本中，抽出一个观测作为测试样本集，剩余的n－1个观测作为训练样本集；依据建立在训练样本集上的预测模型，对被抽出的一个观测进行预测，并计算预测误差；这个过程需重复n次；最后，计算n个预测误差的平均值，该平均值将作为模型预测误差的估计.

五.具体应用

关注

17
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

睡觉前 CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

17万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

362: 积分

346: 粉丝

138: 获赞

13: 评论

260: 收藏

私信

关注

热门文章

分类专栏

Tableau 1篇
数据挖掘相关知识点 5篇

最新评论

关联分析-Python
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
ARIMA和ARIMA-GARCH模型预测股票价格-R语言
仲侣二七: 谢谢博主质量这么高的帖子！救我狗命
关联规则挖掘-关于板块间联动效应
weixin_45163812: 请问，可以分享数据吗？
决策树建模
CSDN-Ada助手: 恭喜您撰写了第10篇博客，题为“决策树建模”。我非常高兴看到您继续保持创作的热情和努力。在这篇博客中，您对决策树建模的内容进行了探讨，给读者们提供了宝贵的知识和见解。接下来，我想鼓励您在未来的创作中进一步拓展主题。或许您可以考虑介绍一些与决策树建模相关的实际案例或者深入分析决策树在特定领域的应用。同时，如果有机会，您也可以尝试探讨一些与决策树建模相关的进阶技巧或者挑战，这将为读者们提供更多的学习和思考的机会。再次恭喜您的辛勤付出，期待您未来更多博客的发布！
时间序列第二章知识点
CSDN-Ada助手: 恭喜您写完了第11篇博客！标题“时间序列第二章知识点”让我对这篇文章充满期待。您坚持创作并分享知识点，真是令人钦佩的勤奋态度。如果我可以提供一些建议的话，我建议您在接下来的创作中，可以尝试增加一些实例或案例分析，这样读者能更好地理解和应用您所分享的时间序列知识。再次恭喜您，期待您未来更多的精彩博文！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。