机器学习实战---KNN算法

最新推荐文章于 2022-06-15 15:26:38 发布

coding丁

最新推荐文章于 2022-06-15 15:26:38 发布

阅读量490

点赞数

分类专栏：机器学习文章标签：机器学习分类 KNN算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dingdingdodo/article/details/103043262

版权

KNN算法

(机器学习实战)

K-近邻算法采用测量不同特征值之间的距离方法进行分类。

工作原理：

已有一个样本数据集，即训练集，并且训练集的每个数据都有其对应的分类标签。输入没有标签的新数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据的分类标签。也就是看最相近的k个数据的标签，通过多数表决的方式进行。
这里的k-NN的k即为选择的样本数据集中的前k个最相似的数据，通常k设置为不大于20的整数

通过距离度量来计算查询点（query point）与每个训练数据点的距离，然后选出与查询点（query point）相近的K个最邻点（K nearest neighbors），使用分类决策来选出对应的标签来作为该查询点的标签。

例子：

电影分类

现在已知电影分类为动作电影和爱情电影，其中已有数据为每部电影的打斗镜头和接吻镜头的数量。如何通过已有数据对未知电影分类呢？

可以先对已有数据进行大致的绘图：

很显然我们猜测未知电影应该是属于爱情片的。

实际上kNN算法的思想就是如此简单，通过查看离未知点最近的k个点的标签来推测该点的标签

用数学的方法表示：

可以定义一种距离，根据具体的情况定义即可。在此用普通的欧拉距离（当然我觉得可以给每种属性一个权重，但是如何定义权重应该用先验知识和已知数据去共同决定）
$d=\sqrt{(A_{1}-A_{2})^2+(B_1-B_2)^2}$

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。