【深度学习】目标识别损失函数

MangoloD

已于 2022-10-09 20:49:40 修改

阅读量812

点赞数

分类专栏：深度学习文章标签：深度学习

于 2021-04-03 17:24:50 首次发布

本文链接：https://blog.csdn.net/weixin_42166222/article/details/115355126

版权

深度学习专栏收录该内容

14 篇文章 6 订阅

订阅专栏

一、人脸识别的难点

不同人脸类别之间的界限不明显
脸与脸之间相似度很高，难以区分
如何解决人脸特征分类困难的问题

二、人脸识别损失函数

1.Softmax 和 Softmax Loss

Softmax
$S_j=\frac{e^{a_j}}{\sum^T_{k=1} e^{a_k}}$
$a_j$ 表示当前输入的类别特征， $a_k$ 表示从第一个到最后一个的类别特征
Softmax Loss

交叉熵损失函数： $L=-\sum^T_{j=1}y_j logS_j$
$y_j$ 为标签， $S_j$ 表示每个输入类别属于真实类别的概率， $logS_j$ 为信息熵
由于 $y_i$ 是0和1，所以公式化简为 $L=-logS_j$ ，y属于真实类别(0和1)， $l o g S$ 是对概率(0, 1)求对数(-∞, 0)，负对数就是(0, +∞)

概率在0到1之间，可见，概率越小，log值也越小，而-Iog值则越大。概率越大，-log值越小。所以只需要优化-log值，让其最小，就能找到概率最大的预测值。

2.Softmax Loss 和 Cross-Entropy Loss

$E=-\sum^{T}_{j=1}y_ilogP_j$
当cross entropy的输入P是softmax的输出时，cross entropy等于softmax loss。 $P_j$ 是输入的概率向量P的第j个值，所以如果你的概率是通过softmax公式得到的，那么cross entropy就是softmax loss。

3.Minst数据 Softmax Loss 特征分类

只能区分类间距，无法拉近类内距
在这里插入图片描述

4.Siamese Network孪生神经网络

在这里插入图片描述

5.Triplet Loss

在这里插入图片描述

两个正样本特征，一个负样本特征，使用其中一个正样本点和另外两个特征做距离上的比较

6.Center Loss

在这里插入图片描述

为了使模型学到的特征判别度更高，在原有的Softmax Loss基础上加了一种新的辅助损失函数Center Loss

求导公式
由于不能直接获得C，所以将其放到网络中随机生成，在每个batch里更新一次C，然后将这个梯度形式加到Center上，做梯度下降

这里再增加一个scale度量α，使center不会抖动，也就是学习率,α一般取0.5
如何提取数据特征
改进Center Loss

λ=0.003和α=0.5时对人脸识别人物效果最佳
缺点
- 类别较多时，对硬件要求较高
- L2范数的离群点对loss的影响较大
- 类内距太大
- 只适合同类样本差异不大的数据

7.欧氏距离

用于衡量个体在空间上存在的距离，距离越远说明个体差异越大。衡量的是多维空间中各点之间的绝对距离。

因为计算的是基于各维度特征的绝对值，所以欧氏距离需要保证各维度指标在相同刻度级别，比如对身高、体重两个单位不同的指标使用欧氏距离可能结果失效。
在这里插入图片描述

8.余弦距离

用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上

通常用于正空间，一般取值为0-1之间

余弦距离就是用1减去我们的余弦相似度获得的，余弦相似度的取值范围是[-1,1]，方向相同的两个向量之间的相似度是1，余弦距离取值范围是[0,2]
在这里插入图片描述
要区分两个向量，最好的办法就是增大角度 θ+ m，或者减小相似度系数 cos(θ)- m。

9.欧氏距离与余弦相似度的区别

两个向量的余弦相似度不能代替两个点的距离，距离越小，相似度越大，但相似度越大，距离不一定最小

欧式距离能够体现个体数值的绝对差异，更多用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异

余弦相似度更多从方向上区分差异，对绝对数值不敏感，更多用于使用用户对内容评分来区范围内用户兴趣的相似度和差异，同时修正用户间可能存在的度量标准不统一的问题

举个例子：
用户对内容评分，按5分制，X和Y两个用户对两个内容的评分分别为(1,2) 和(4,5)，使用余弦相似度得到的结果是0.98，两者极为相似。但从评分上看x似乎不喜欢这个内容，而Y则比较喜欢，余弦相似度对数值的不敏感导致了结果的误差，需要修正这种不合理性就出现了调整余弦相似度，即所有维度上的数值都减去一个均值。比如X和Y的评分均值都是3，那么调整后为(-2，-1)和(1,2)，再用余弦相似度计算，得到-0.8，相似度为负值并且差异很大，但显然更加符合现实。
在这里插入图片描述