论文阅读《Boosting Few-Shot Learning With Adaptive Margin Loss》

最新推荐文章于 2023-12-20 17:07:04 发布

不说话装高手H

最新推荐文章于 2023-12-20 17:07:04 发布

阅读量642

点赞数

文章标签： boosting 机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AmbitionalH/article/details/120733101

版权

Background ＆ Motivation

各种度量学习方法的不同之处就在于特征的提取方法和嵌入空间内距离的度量方法不同。

交叉熵损失常用来监督模型提取区别度高的视觉特征，在此之前还有人提出各种不同的 margin loss。最简单的 Naive Additive Margin Loss：

这个方法是假设所有的类都应该平等的远离彼此，因此增加了一个固定的常数 m。但是对相似的类别并不能很好地区分，尤其是在小样本的设定下。

除此之外还有 angular margin 和 cosine margin 等等。

By observing that the weights from the last fully connected layer of a classification DCNN trained on the softmax loss bear conceptual similarities with the centers of each class.

没读太懂。

但是之前的 margin loss 并不适合小样本学习任务这种数据很稀缺的情况，这也是本文的 Motivation。

Methodology

第一次看到 standard FSL 和 genrealized FSL 这两种说法。

Standard FSL

where the test data contain novel class samples only.

Generalized FSL（更贴合实际

where the label space of test data covers both base and novel classes.

提出了一个 adaptive margin loss，旨在嵌入空间中更好的分离不同类的物体，特别是使相似的类尽可能分离地远，更适合小样本学习，示意图如下：

使用了一种之前没有看到过的方法，将类别的语义相似性（词嵌入 word embedding）加入到了提出的 naive additive margin loss 中。

Training strategy

模型在训练时采用 adaptive margin loss，测试时只用简单的 softmax 来完成分类。

Class-Relevant Additive Margin Loss（CRAML）

为了更适合小样本学习任务，在 naive additive margin loss 的基础上应该自适应地使不同的类别间的距离不相同。基于这个想法提出了 CRAML，引入了类别的语义特征（word embedding）来调整类别间距。构建了一个 class-relevant margin 产生器 M，输入类别对的名字来获得其 adaptive margin：

sim 是度量函数，另外两个是超参数，分别来调整 M 的尺度和偏置参数。CRAML 的公式如下：

TRAML 可以看作是 CRAML 的升级版。

Task-Relevant Additive Margin Loss（TRAML）

同样，先根据语义特征来度量类别对的 margin：

这个公式的示意图为：

Generator 前是一个全连接网络，将其融合到 naive additive margin loss 上：

最终使用的 Adaptive Margin Loss 就是 TRAML。

Experiment

Standard FSL

特征提取模块使用的是 ResNet12。

Generalized FSL

特征提取模块采用 ResNet10。

对损失函数进行了消融实验：

Conclusion

用词嵌入的方法来使类别间的间隔不同，是个很新颖的方法。这个损失函数是对交叉熵损失函数的改进，可以结合到现有的模型中。

还有提到了 Standard FSL 和 Generated FSL 的概念。

不说话装高手H

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读《Boosting Few-Shot Learning With Adaptive Margin Loss》

Background ＆ Motivation各种度量学习方法的不同之处就在于特征的提取方法和嵌入空间内距离的度量方法不同。交叉熵损失常用来监督模型提取区别度高的视觉特征，在此之前还有人提出各种不同的 margin loss。最简单的 Naive Additive Margin Loss：这个方法是假设所有的类都应该平等的远离彼此，因此增加了一个固定的常数 m。但是对相似的类别并不能很好地区分，尤其是在小样本的设定下。除此之外还有 angular margin 和 cosine ma
复制链接

扫一扫

不说话装高手H CSDN认证博客专家 CSDN认证企业博客

码龄5年

45: 原创

31万+: 周排名

227万+: 总排名

7万+: 访问

: 等级

807: 积分

40: 粉丝

88: 获赞

26: 评论

467: 收藏

私信

关注

热门文章

最新评论

度量学习——总结
JAMJAM_NoName: 对比学习和度量学习是一个东西吗？感觉一样但是论文里面不知道咋描述
论文阅读《Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning》
tddghj: 博主你好，我想请教一下，论文中抽取元训练集的时候是怎么选择抽取的类别的啊？是在所有的基类中每个基类选择kshot还是选抽取几个类别，根据这几个类别随机抽取kshot啊？
论文阅读《Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning》
pursuingSun: 博主大大你好，想请教一下，文中提到的元学习策略是这样的吗：元训练阶段，把图片输入到上半部分的网络中，从很多基类中选择几个基类中的k个带标签的shot输入到下半部分的PRN网络中，然后进行训练，这算做一次，进行很多次这样的训练。元测试阶段，同样把图片输入到上半部分的网络中，从基类和新类的并集中选择一些类别的k个shot，输入到下半部分的PRN网络中。看识别基类和新类的效果。请问是这样进行的吗？我想不太明白的是 1. 训练阶段是需要不断训练到覆盖所有基类吗？ 2. 在测试阶段，新类怎么选择呢？比如说，输入的图中有车、猫、狗，训练阶段有过车、猫的图，那么车、猫理论上应该被识别，而如果测试阶段添加的新类中有狗，则狗也该被识别出来，如果没有添加则狗不能够被识别出来。这样是理想的结果吗？不好意思，刚刚入门有点蒙，不知道疑问说清楚了没
论文阅读《Accurate Few-shot Object Detection with Support-Query Mutual Guidance and Hybrid Loss》
qq_39232360: 太厉害了，有的话看了之后顿悟
论文阅读《Meta-FDMixup：Cross-Domain Few-Shot Learning Guided by Labeled Target Data》
weixin_45743125: 你好，这篇代码跑通了吗，可以交流一下吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。