【模式识别与深度学习】距离分类器

一、距离分类器的一般形式

将待识别的样本分类到与其最相似的类别中

二、计算距离前的数据预处理

2.1 样本规格化

数据的量纲对数据的相似性影响很大,以重量单位为例,单位有克、千克等,如果数据相同,但单位不同,数据的相似性会因为量纲的不同而表现出不同。通过数据规格化能够消除这种因为量纲带来的差异,如下图坐标系所示:

在这里插入图片描述
样本规格化其实就是移动坐标系中原点的位置并缩放坐标轴,目的是消除特征量纲对数据相似性的影响。
主要方法有:

  1. 均匀缩放:数据规格化后每一维数据都满足均匀分布。具体步骤如下:
    在这里插入图片描述
  2. 高斯缩放:数据规格化后每一维数据都满足高斯分布。
    在这里插入图片描述
    注:简单的高斯缩放会丢失不同变量之间的相关性,使用马氏距离可以保留变量之间的相关性,同时消除量纲的影响。马氏距离的 S j S_j Sj中的距离用下面这个式子替代普通高斯分布中的欧氏距离:
    在这里插入图片描述
    当各变量之间相互独立,即协方差矩阵为单位阵时,马氏距离与欧氏距离等价。

2.2 加权距离

均值缩放可以看作时一种特殊的加权距离,每一个数据的权值都是相同的,且都为 1 m a x − m i n \frac{1}{max-min} maxmin1 。高斯缩放同理。
使用加权距离,可以在一定程度改善样本数据分布不平衡的问题,如何确定权值是加权距离的关键。

三、常见的距离函数

3.0 距离度量需要满足的条件

在这里插入图片描述

3.1 闵可夫斯基距离(都具有平移不变性)

在这里插入图片描述

3.1.1 街区距离

在这里插入图片描述

3.1.2 欧氏距离(只有欧氏距离具有旋转不变性)

在这里插入图片描述

3.1.3 切比雪夫距离

切比雪夫距离是指所有维度分别求差,差值里面的最大值。
在这里插入图片描述

3.1.4 闵氏距离总结

闵氏距离都具有平移不变性,但只有欧氏距离具有旋转不变性,因此欧氏距离常被用做距离度量。
在这里插入图片描述

3.2 汉明距离

汉明距离往往用于判断01字符串的相似性,具体规则如下:
在这里插入图片描述

四、基于距离的分类器

4.1 最近邻分类器

4.1.1 最近邻分类器

最近邻分类器就是将待分类的样本归类到数据集中距离该样本最近的点所属的类别。
在这里插入图片描述
最近邻分类器将空间划分成很多个小格子,如下图
在这里插入图片描述

4.1.2 最近邻分类器加速

由于普通版本的最近邻分类器需要计算待分类样本点到训练集中所有点的距离,计算量较大并且需要保存所有的点,我们可以将训练集的信息用单模板或者多模板替代,从而减少计算量和数据存储空间。

4.1.2.1 基于单模板的最近邻分类器

基于单模板的最近邻分类器是指根据训练集中的数据信息,对于每一个类别的所有数据点,使用一个点来替代这个类别的所有数据点。
我们一般选择一个类别中所有点的均值作为此类的模板,因为这样的点距离该类的训练样本所有点的距离和最小,证明过程如下:
在这里插入图片描述
在这里插入图片描述

4.1.2.2 基于多模板的最近邻分类器

单模板的最近邻分类器能解决的分类问题有限,如下图所示的分布,如果使用单模板的最近邻分类器,则无法将两种数据分开,如果采用多模板的方式,就可以很好地区分两种类别。
在这里插入图片描述

4.2 K近邻分类器

  • K值的选择:如果K值太小,和最近邻分类器效果差不多,容易受噪声的扰动,导致模型过拟合;如果K值太大,分类效果不好,不难很好地区分出样本的类别,导致模型欠拟合。K值的选择需要具体问题具体分析,一般取5或者7。
  • 非平衡样本集:如果样本集中的数据某一类数据特别多,使用K近邻分类器可能会导致数据多的类别总是在K近邻‘投票’时占优,导致原本不是该类别的数据错分类为这个数据多的类别,从而导致错误率很高。改进方法有:1.平衡数据集,使得每一类数据的数据量差别不要过大;2.使用加权距离替代普通距离,给样本数比较小的类别一个比较大的权值,从而达到一定的平衡效果。
  • 计算量:K近邻分类器需要计算待分类样本点与训练集所有点的距离,并且选出最小的K个。在计算待分类样本点与所有点的距离的同时,维护一个K-D树,时间空间复杂度是O(n),时间复杂度是O(nlogn)

4.3 K近邻分类器基于模板匹配的最近邻分类器比较

在这里插入图片描述
在这里插入图片描述

五、其他衡量相似度的方法

5.1 角度相似性

当两个样本之间的相似程度只与它们之间的夹角有关、与矢量的长度无关时,可以使用矢量夹角的余弦来度量相似性。具体计算方法为:将向量归一为单位向量后求内积,用余弦的大小来表示角度的大小( 0 o 0^o 0o~ 18 0 o 180^o 180o
在这里插入图片描述

5.2 相关系数

在这里插入图片描述

六、分类器性能评价

6.1 分类器的评价方法

6.1.1 错误率与拒识率

拒识率,以线性分类器为例,如果点恰好落在分类面上,这个点拒识,即当g(x)=0时,x这一点拒识.
在这里插入图片描述

6.1.2 敏感性与特异性(真阳和假阳分别判断正确的概率)

敏感性:患者被查出有病
特异性:正常人不被检查出有病
在这里插入图片描述

ROC曲线

在这里插入图片描述

6.1.3 召回率和准确率

在这里插入图片描述
在这里插入图片描述

6.2 分类器的评价方法

在这里插入图片描述
在这里插入图片描述

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值