K最近邻分类算法(KNN)

1、基本思想:给定一个测试样本,计算它与训练集中每个对象的距离,圈定距离最近的k个训练对象作为其最近邻,然后使用这k个最近邻中出现次数最多的类标号作为测试样本的类标号值。

每个样本可以表示为(x,x,x,x,....y)的形式,其中x表示样本的属性,y表示样本的类标号。

2、特点:

(1)不需要事先对训练数据建立样本分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测。

(2)基于局部信息(k最近邻)进行决策,因此最近邻k很小时,对噪音非常敏感。

3、关键:

(1)k值的选取

(2)寻找未知样本时,必须计算未知样本与预测集中样本的距离,应根据具体应用情况选择合适的度量方法。如:二维数据集可用欧几里得或曼哈顿距离来度量,但是对于文档的分类,由于数据的维度非常高,就不能使用欧几里得距离,通常使用余弦相似度来计算两个文档之间的距离。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值