机器学习-KNN(最近邻)详解

  1. K-近邻算法原理
    K最近邻(kNN,k-NearestNeighbor)分类算法,见名思意:找到最近的k个邻居(样本),在前k个样本中选择频率最高的类别作为预测类别。
    下面举个例子,图解一下大家就会显而易见了,如下图:
    在这里插入图片描述
    e.g:下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果k=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果k=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
    在这里插入图片描述
    我们的目的是要预测某个学生在数学课上的成绩。。。
    先来说明几个基本概念:图中每个点代表一个样本(在这里是指一个学生),横纵坐标代表了特征(到课率,作业质量),不同的形状代表了类别(即:红色代表A(优秀),绿色代表D(不及格))。我们现在看(10,20)这个点,它就代表着:在数学课上,某个学生到课率是10%,交作业质量是20分,最终导致了他期末考试得了D等级(不佳)。同理,这6个点也就代表了6个往届学生的平时状态和最终成绩,称之为训练样本。。。。

现在要来实现我们的预测目的了,想象一下现在一学期快过完了,张三同学马上要考试了,他想知道自己能考的怎么样,他在数学老师那里查到了自己的到课率85%,作业质量是90,那么怎么实现预测呢?张三可以看做是(85,90)这个点–也被称之为测试样本,首先,我们计算张三到其他6位同学(训练样本)的距离,点到点的距离相信我们初中就学了吧(一般用的欧氏距离)。再选取前K个最近的距离,例如我们选择k=3,那么我们就找出距离最近的三个样本分别属于哪个类别,此例中,自然三个都是A等,所以可预测出张三的数学期末成绩可能是A等(优秀)。倘若李四现在也想进行预测,据他较近的3个中两个D,一个A,那么李四的数学期末成绩被预测为D。这也就是最开始所说的:在前k个样本中选择频率最高的类别作为预测类别。。。

总结其计算步骤如下:

算距离:给定测试对象,计算它与训练集中的每个对象的距离
找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻
做分类:根据这k个近邻归属的主要类别,来对测试对象分类

好了,经过上述过程,你是否对KNN算法基本思想有了一定了解。也许你会问我,我大学不去上课,不交作业,照样考A,这预测根本不准确嘛,O(∩_∩)O哈哈~,首先说明一下这个例子举的确实不太恰当,因为我们的特征(到课率和作业质量)选取的不当,在很多分类预测算法中,决定其分类预测上限的往往是好的特征的选取,好的特征也就是对其最终结果的影响比较大的。。。原理就说到这吧。。。

算法复杂度
kNN是一种lazy-le

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值