halcon机器视觉算法原理与编程实战_机器学习中的K近邻算法原理和sklearn实战

最新推荐文章于 2023-06-21 21:42:43 发布

weixin_39612877

最新推荐文章于 2023-06-21 21:42:43 发布

阅读量380

点赞数

文章标签： halcon机器视觉算法原理与编程实战学习sift算法的原理和步骤

K近邻(KNN)是一种最经典和简单的有监督学习方法，主要用于解决分类和回归问题，当对数据的分布只有很少或者没有任何先验的知识时，K近邻算法是一个不错的选择。

我首先通过上图来直观理解K近邻的原理，假设我们的数据样本分为A类和B类，现在给定一个要预测的样本五角星属于A类还是B类。

如果k=3时，我们先寻找距离五角星最近的3个样本，发现其中有1个属于A类，2个属于B类，B类多于A类，因此K近邻算法认为五角星属于B类。

如果k=6时，我们先寻找距离五角星最近的6个样本，发现其中有4个属于A类，2个属于B类，A类多于B类，因此K近邻算法认为五角星属于A类。

从上面我们可以看出，k值的选择不同，样本被预测的结果有可能会不同。到这里有一个问题要提出，如何计算点与点之间的距离？

常用的距离计算方法还有：

Hamming Distance 汉明距离
Manhattan Distance 曼哈顿距离
Minkowski Distance 闵氏距离

接下来我们再看一个例子：假设您想将灰点分类为一个类。在这里，有三种可能的颜色——石灰绿、绿色和橙色。

首先计算灰点和所有其他点之间的距离。

接下来，通过增加距离来排序点来找到最近的邻居。灰点的近邻(NNs)是数据空间中最接近的。

根据k个最邻近的类对预测的类标签进行投票。在这里，标签是根据k=4最近邻预测的。因为橙色的票数最多，所以灰色被预测划分为橙色这一类。

到这里，我们可以来一个总结K近邻算法的详细流程：

确定k的大小和距离计算的方法。
从训练样本中得到k个与测试样本最相近的样本。
根据k个最相似训练样本的类别，通过投票的方式来确定测试样本的类别。

讲了那么多，是时候动手撸代码了，接下来是用sklearn实现K近邻的过程：

案例：一家汽车公司刚刚推出了他们新型的豪华SUV，我们尝试预测哪些用户会购买这种全新SUV。数据集是从某社交网络中收集的用户信息。这些信息涉及用户ID、性别、年龄以及预估薪资，最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV，该模型基于两个变量，分别是年龄和预计薪资。我们尝试寻找用户年龄与预估薪资之间的某种相关性，以及他们是否有购买SUV的决定。

1、导入常用相关库。

2、导入数据集。

3、将数据集划分成为训练集和测试集。

4、数据标准化。

补充说明，上面的fit_transform、transform处理结果都一样，只是第一个用于训练集，第二个用于测试集，具体的区别可以去这看看https://www.cnblogs.com/keye/p/8875128.html。

5、使用K-NN对训练集数据进行训练。

补充说明，上面的参数metric就是用来进行距离度量的，其中传递的是默认参数minkowski(闵可夫斯基距离)，闵可夫斯基距离可以根据一些参数变化从而变成其他距离度量算法，例如p=1为曼哈顿距离， p=2为欧式距离。更为具体的介绍可以去这里看看https://www.cnblogs.com/pinard/p/6065607.html。

6、对测试集进行预测。

7、生成混淆矩阵。

在评估预测阶段，监督学习可用混淆矩阵(confusion matrix)作为精度评价与可视化工具，而非监督学习则用匹配矩阵(matching matrix)。因为我们这的数据有标签0或1，所以是监督学习，所以用混淆矩阵。

8、分析混淆矩阵结果。

从图中我们可以看出：

标签 0 的总数为：64 + 4 = 68 个，其中有 64 个被正确预测，有 4 个被错误的预测成 1 标签。
标签 1 的总数为：3 + 29 = 32 个，其中有 29 个被正确预测，有 3 个被错误的预测成 0 标签。

到这里就结束了。

weixin_39612877

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
halcon机器视觉算法原理与编程实战_机器学习中的K近邻算法原理和sklearn实战

K近邻(KNN)是一种最经典和简单的有监督学习方法，主要用于解决分类和回归问题，当对数据的分布只有很少或者没有任何先验的知识时，K近邻算法是一个不错的选择。我首先通过上图来直观理解K近邻的原理，假设我们的数据样本分为A类和B类，现在给定一个要预测的样本五角星属于A类还是B类。如果k=3时，我们先寻找距离五角星最近的3个样本，发现其中有1个属于A类，2个属于B类，B类多于A类，因此K近邻算法认为五角...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。