k近邻分类器

最新推荐文章于 2024-10-02 23:40:03 发布

孤芳剑影

最新推荐文章于 2024-10-02 23:40:03 发布

阅读量108

点赞数

分类专栏：机器学习文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/wdxabc1/article/details/129495015

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、监督学习

1.定义
监督学习：学习从输入到输出的映射关系。
在这里插入图片描述
1.发现和学习特征(属性)到标签(类别)的函数关系y=f(x)
2.针对新的数据x′，其未知标签y′=f(x′)

2.目标
1.最小的数据误差
（1）训练集上预测值与误差值达到最小
（2）min||y−f(x)||
（3）最大的训练精度

2.最好的泛化能力
（1）模型对没见过的数据做出准确预测的能力
（2）分类器的泛化能力通常用泛化精度衡量
（3）在新数据上表现好坏的度量就是在测试集上的评估

3.典型问题
（1）欠拟合：模型无法抓住数据的全部内容及规律
1.模型在训练集上表现就很差

(2)过拟合：模型对现有信息量来说过于复杂
1.模型在训练集上表现很好
2.泛化精度低

(3)过拟合与欠拟合间的权衡
1.模型越复杂，训练集上的精度越高
2.过于复杂的模型过多地关注训练集中的数据特征，泛化性能降低
3.目标：在完美匹配训练数据与保持模型简单之间寻找平衡点

在这里插入图片描述

二、k近邻分类器

1.相似性的度量方法
（1）离散属性：计算相异的属性个数
（2）连续属性：计算两个样例之间的几何距离

2.欧氏距离
（1）二维平面(x_1,x_2)和(y_1,y_2)之间的几何距离
（2）推广到n维：
在这里插入图片描述

3.算法步骤
就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：
1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

4.Scikit-learn实现
在这里插入图片描述
sk-learn 官网API
5.思路
它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

举例说明一下，如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类
在这里插入图片描述
6.优点与缺点
（1）优点
1.简单易理解；容易解释
2.基于实例的学习（消极学习）
3.不具有显示的学习过程
4.无需维护源自数据的抽象