Python3 机器学习实战自我讲解（二） K-近邻法-海伦约会-手写字体识别

最新推荐文章于 2021-09-30 17:28:20 发布

ZhangCM_EDC

最新推荐文章于 2021-09-30 17:28:20 发布

阅读量572

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40229767/article/details/79252506

版权

本文介绍了Python3实现的K-近邻算法，通过海伦约会网站配对效果判定和手写体识别实战，详细阐述了k-近邻法的概念、距离度量和实战应用，包括数据准备、归一化和分类器测试，展示了算法的高效性和准确性。

摘要由CSDN通过智能技术生成

第二章 k近邻法

2.1 概念

2.1.1 k近邻法简介

 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

K近邻算法
优 点 ：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。
适用数据范围：数值型和标称型

举个例子，我们来使用k近邻法来分类爱情片和动作片。有人曾统计过很多电影的打斗镜头和接吻镜头，那么如何确定一部没看过的电影是爱情片还是动作片呢？我们可以使用k-nn来解决这个问题。

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He’s Not Really into Dudes	2	100	爱情片
Robo Slayer 3000	99	5	动作片
Amped ll	98	2	动作片
？	18	90	未知

每部电影的打斗镜头数、接吻镜头数以及电影评估类型

现在我们如何判断该电影的类型呢？当然是通过最近邻居来判断啦~如何判断邻居的距离呢，首先我们需要定义距离。

2.1.2 距离度量

我们一般运用欧氏距离：

∥ A B | | = (x 1 - x 2) 2 + (y 1 - y

最低0.47元/天解锁文章

ZhangCM_EDC

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录