『损失函数』ArcLoss

沉浸式AI

已于 2024-07-24 01:21:59 修改

阅读量190

点赞数 1

分类专栏：《深度学习基础篇》文章标签：人工智能损失函数深度学习

于 2020-03-04 17:41:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39783664/article/details/104658286

版权

《深度学习基础篇》专栏收录该内容

22 篇文章 0 订阅

订阅专栏

一.Center loss的缺点

类别较多时，对硬件要求较高。
L2范数的离群点对loss的影响较大。
详情见博客：『损失函数』Center Loss

二.补充：

Softmax loss:扩大类间距( $L_S$ )；
Center loss缩小类内距( $L_C$ )。
Softmax loss与Center loss联合使用： $L_2=L_S+L_C$
存在的问题：Center loss不能将类内距缩小的非常小。当特征较多时，即，类较多时，就会很多类在一个平面（二维）挤在一起（MNSIT数据集和人脸识别对比）。
Softmax loss与Center loss联合使用的基础在于Softmax loss。
不考虑Center loss，在Softmax loss的基础上扩大类间距。
引入Arc-softmaxLoss。

三.Arc-SoftmaxLoss

1.理论：

看这篇博客： https://blog.csdn.net/u012505617/article/details/89355690

（1）向量相关性的表示方法

欧氏距离：

https://blog.csdn.net/huangfei711/article/details/78469614

余弦相似度

更加注重两个向量在方向上的差异。

https://blog.csdn.net/huangfei711/article/details/78469614

余弦距离

https://blog.csdn.net/lucky_kai/article/details/89514868

公式：1-余弦相似度
余弦距离越小，向量相关性越大。反之，依然。
更加

（2）如何将两个向量之间角度变大，变得不相关？

方法1：在原始角度上+新的角度。如：cos(θ+m)。
方法2：余弦值上减去一定数值。如：（cosθ）-m。

（3）实际应用中余弦相似度取值范围？

（0，1）。类似于 ReLU函数。负值归为0。

（4）余弦相似度与欧氏距离的区别

距离：衡量空间两个点之间的绝对距离，与所在坐标相关。

余弦相似度：衡量空间向量的夹角，更加体现方向上的差异。

距离大（欧氏距离），相似度越小（余弦相似度）。
距离越小，相似度越大（欧氏距离和余弦距离）----这句话是真理。反过来不一定成立。

（5）将余弦相似度和欧氏距离变的等价性。

标准化：取均值，做归一化。

首先，取均值；如：a(1,2),b(4,5),其中范围为（1，5），则，均值为3------>a(-2，-1),b(1，2)；
然后，归一化；a(-1,-0.5),b(0.5,1)。
最后，计算。计算欧氏距离：较大（就不计算了）；计算余弦相似度：-0.8。

标准化后的两个向量，他们的欧氏距离的平方与余弦距离成正比。

（6）回顾Softmax loss

在这里插入图片描述

（7）带入 $a_j$ 的完整式子

在这里插入图片描述

（8）余弦相似度代替 $a_j$ 的完整式

偏置为0。函数为W和X求内积的公式。使用余弦相似度代替。

在这里插入图片描述

（9）归一化

Softmax loss函数的目标是最大化的正确分类，如果直接使用Softmax loss，可能会忽略到难分的特征（如：低质量图片），优先拟合高质量图片。

所以，强行将特征(w和b)做归一化。与余弦相似度做标准化一样，让图片变在一个范围内，提高效果，获得网络的注意力，不会照顾特别好学的样本。

对W归一化，没办法人为改变；角度可认为改变。

（10）A-SoftmaxLoss

在这里插入图片描述

将权重W归一化 ||W|| = 1 ，b = 0。这使得模型的预测仅取决于 W 和 X 之间的角度。 (其实，也没x，只与w和x之间的夹角有关系)

在这里插入图片描述

角度加了值m（1<m）。A-Softmaxloss是一种增加角度乘积系数的方式来增大角度分类的。

在这里插入图片描述

（11）AM-SoftmaxLoss

用减小相似度系数的方式来增大向量之间的距离。

根据Normface，对f进行归一化，乘上缩放系数s，最终的损失函数变为：

m的取值范围：0-1。因为相似度系数的取值范围为0-1（负数归为0）。

在这里插入图片描述

（12）对比

A-SoftmaxLoss是用m乘以θ，而AM-SoftmaxLoss是用cosθ减去m，这是两者的最大不同之处：一个是角度距离，一个是余弦相似度距离。
在反向计算中，求乘法没有求减法简单。

（13）Arc-SoftmaxLoss

角度和距离（余弦值）哪个对分类更好？

增大角度比减小相似度距离对分类的影响更加直接，所以，可以改为直接增加角度的方式。
余弦距离比较密集。
角度+m:避免乘法计算导数不方便，又避免距离没有角度好的现象。

在这里插入图片描述

式中，分母上右边去掉变化的角度，左边又加上。

（14）一张效果图（MNIST数据集）

在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

沉浸式AI CSDN认证博客专家 CSDN认证企业博客

码龄7年

西南交通大学

181: 原创

1万+: 周排名

8054: 总排名

13万+: 访问

: 等级

4392: 积分

1253: 粉丝

1910: 获赞

23: 评论

1758: 收藏

私信

关注

热门文章

分类专栏

最新评论

torch1.7.0之后 c++ 丢弃了＜THC/THC.h＞ THCState的修改
m0_74178663: wawawa,有用有用！！！！谢谢大佬1111
残差网络构建：Deep Layer Aggregation【方法解读】
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
『配置文件』yolo配置文件的参数说明
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
『模型评估』深度学习模型评估指标（P、R、AP、mAP等）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。