k近邻分类器

一、监督学习

1.定义
监督学习:学习从输入到输出的映射关系。
在这里插入图片描述
1.发现和学习特征(属性)到标签(类别)的函数关系y=f(x)
2.针对新的数据x′,其未知标签y′=f(x′)

2.目标
1.最小的数据误差
(1)训练集上预测值与误差值达到最小
(2)min||y−f(x)||
(3)最大的训练精度

2.最好的泛化能力
(1)模型对没见过的数据做出准确预测的能力
(2)分类器的泛化能力通常用泛化精度衡量
(3)在新数据上表现好坏的度量就是在测试集上的评估

3.典型问题
(1)欠拟合:模型无法抓住数据的全部内容及规律
1.模型在训练集上表现就很差

(2)过拟合:模型对现有信息量来说过于复杂
1.模型在训练集上表现很好
2.泛化精度低

(3)过拟合与欠拟合间的权衡
1.模型越复杂,训练集上的精度越高
2.过于复杂的模型过多地关注训练集中的数据特征,泛化性能降低
3.目标:在完美匹配训练数据与保持模型简单之间寻找平衡点

在这里插入图片描述

二、k近邻分类器

1.相似性的度量方法
(1)离散属性:计算相异的属性个数
(2)连续属性:计算两个样例之间的几何距离

2.欧氏距离
(1)二维平面(x_1,x_2)和(y_1,y_2)之间的几何距离
(2)推广到n维:
在这里插入图片描述
在这里插入图片描述
3.算法步骤
  就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

4.Scikit-learn实现
在这里插入图片描述
sk-learn 官网API
5.思路
  它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

  举例说明一下,如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类
在这里插入图片描述
6.优点与缺点
(1)优点
1.简单易理解;容易解释
2.基于实例的学习(消极学习)
3.不具有显示的学习过程
4.无需维护源自数据的抽象

(2)缺点
1.K较小时对噪声非常敏感
2.训练集很大时,预测速度会较慢
3.在稀疏数据集上的效果不好

7.度量相似性
在这里插入图片描述

8.属性的尺度缩放
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值