说一下最简单的机器学习模型KNN(k-近邻),入门机器学习必备!!!

本文介绍了机器学习的基础模型KNN(k-最近邻),阐述了KNN算法的思想,强调了特征、标签和噪声的概念。通过实例解释了算法如何通过距离判断相似性,并提到了K值的选择、距离惩罚机制、数据标准化处理等关键点。同时,分享了使用Python的sklearn库实现KNN的代码,展示模型在交叉验证下的优秀表现,适合机器学习初学者。
摘要由CSDN通过智能技术生成

KNN(k-NearestNeighbor)-K最近邻

KNN虽然是最简单的算法,但是对刚刚开始机器学习的伙伴确是最好的入门算法,我就从算法本身实现开始,说一些基本概念。

先简单说一下要用到的一些专业用语:
特征(features):简单理解就是物体共有的一些特性,就比如可乐都有甜味,碳酸含量啊;房子,有房屋面积,采光度啊,这些都是物体的特征,通常用X来表示。
标签(target):这里说一下机器学习里的标签,就是我们通过物体的特征来预测的值,我们要得到的结果,通常用y表示。
噪声:数据不可解释的部分,通常算法所能达到的期望,泛化误差的下界。

KNN算法思想

举个例子看一下,有两种可乐我们已经知道了碳酸含量和甜味,我们有了一个新可乐(绿点),想知道它是哪个品牌的可乐,图里随便看一下就知道了,显然我们会把它预测为黄牌可乐。
在这里插入图片描述
生活里我们常常会有“越相近越相似”的想法,这其实就是KNN算法的本质,见名知意,k-近邻算法,是通过距离判断k个样本是否相似,如果距离够近就认为他们⾜够相似,有类似的特征(features),是属于同⼀类别,然后根据“少数服从多数,⼀点算⼀票”原则进⾏判断,数量最多的的标签(target)类别就是新样本的标签类别。
但是要注意的是:
1.因为一点一票的关系,并不能“人人平等”,对那些住的远的,需要进行惩罚机制,削弱其对预测结果的影响,惩罚机制在机器学习的算法会常常遇到。
2.量纲对预测结果的影响会非常大,在进行KNN算法前通常会对数据进行统一化,又叫做标准化处理。
3.KNN算法比较简单,所以可解释性比较强,像神经网络等复杂的算法几乎是没有萨满解释性的,但是对噪声的非常敏感。

Python代码实现

我这边用的是sklearn,代码都可以在API找到相关的说明:
官方API:sklearn_API_英文版
中文版:sklearn_中文文档
代码:

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split#导入分割测试集训练集数据集方法包
from s
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WiFi下的365

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值