数据挖掘中的KNN算法实现论文

1   引言

随着信息技术的快速发展,信息对人类生产生活行为的重要性不言而喻,而信息量的增加自然会提升信息的冗余量,“大数据”时代的到来,让人们越来越意识到对信息的加工处理的重要性。因此,数据挖掘技术顺势成为了最受欢迎的信息处理学科。

K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。。除此之外,该算法可应用在改进约会网站的配对效果、文档自动分类、乳腺癌诊断见上方[1]等方面。

K最近邻算法是最常用的数据挖掘算法之一,具有简单,易于理解,易于实现,无需估计参数,无需训练的特点。

2   相关概念

2.1基本思想

如果一个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的大多数属于某一个类别,则该实例也属于这个类别。所选择的邻居都是已经正确分类的实例。

该算法假定所有的实例对应于N维欧式空间Ân中的点。通过计算一个点与其他所有点之间的距离,取出与该点最近的K个点,然后统计这K个点里面所属分类比例最大的,则这个点属于该分类。

2.2改进思想

使用分组快速搜索近邻法,将样本集按近邻关系分解成组,给出每组质心的位置,以质心作为代表点,和未知样本计算距离,选出距离最近的一个或若干个组,再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离,故该改进算法可以减少计算量,但并不能减少存储量。

3    传统K最近邻算法

比较常用的差异性计算方法为欧式距离。

  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值