vse++: improved visual-semantic embeddings阅读笔记(一)

读这篇文章的一些小思考,做下记录,请各位大佬多多包涵

VSE++

Abstract:

提出了一种学习视觉语义嵌入以进行跨模态检索的新技术。 受 hard negative mining、hard negatives 在结构化预测中的使用以及对损失函数进行排序的启发,我们对用于多模态嵌入的常见损失函数进行了简单的更改。 结合微调和增强数据的使用,可以显着提高检索性能。 我们在 MS-COCO 和 Flickr30K 数据集上展示了我们的方法 VSE++,使用消融研究和与现有方法的比较。 在 MS-COCO 上,我们的方法在字幕检索方面比最先进的方法高出 8.8%,在图像检索方面高出 11.3%(在 R@1)。
在这里插入图片描述

创新点:

本文侧重于学习视觉语义嵌入仪进行跨模态图像字幕检索,提出一种新的损失:MH损失,基于相对的困难负样本引起的违规。此改进的损失可以更好地指导更强大的图像编码器ResNet152,并且在微调图像编码器时也能更好的指导。

整体流程

流程图如下:
在这里插入图片描述

Φ和ψ是从图像i和字幕c上计算的基于特征的表示,θφ和θψ表示用于到这些初始图象和字母表示的相映映射的模型参数。经过线性投影,映射到joint embedding space(联合嵌入空间)
在这里插入图片描述

进一步归一化f(i;Wf,θΦ),g(c;Wg,θψ),落在单位超球面上,最后将joint embedding space上的相似性函数定义成通常的内积:
在这里插入图片描述

训练需要最小化关于θ的经验损失,即,在训练数据S = {(in,cn)}n=1N上的累积损失:
在这里插入图片描述

其中,l(in,cn) 是用于单个训练样本的合适的损失函数。受使用三元组损失进行图像检索的启发,最近的联合视觉语义嵌入方法使用了基于铰链的三元组排名损失,这里我觉得这个函数他只是提了一嘴这个适用于单个训练样本的损失函数,实际压根跟文章没啥关系,文章用的是三元组损失
文中推出的Sum和max hinge loss的损失公式如下:
在这里插入图片描述
大佬写的三元组损失:triplet loss 损失函数 - 233彭于晏的文章 - 知乎
https://zhuanlan.zhihu.com/p/171627918

对这两个函数的理解

在这里插入图片描述
在a图中i和c才是配对的,其他的c’都是负样本,可以看到c’是离正确样本最错误的样本,必须优化它,优化后的c’自然就离i远了,但是这就会导致生成所有c的权重会发生改变,结果可以看到在b中,虽然c’因为优化确实不是最差劲的样本了,结果出现其他更无关紧要的,错的不是那么离谱的错误样本被匹配到i上,这导致原来的sh损失函数变得比原来还要大(这就是原文中说的:多个负数和小违规联合起来支配 SH 损失),我们不想让损失函数变大,所以选择用mh损失函数,它只关注离i最近的那个负样本,这样b作为优化后的结果,损失函数变小了就

同时,为了提高计算效率,我们不是在整个训练集中寻找最难的负样本,而是在每个小批量中找到它们。 这与 SH 损失的复杂度具有相同的二次复杂度。 通过对小批量进行随机抽样,这种近似产生了其他优势。 一是很可能得到比整个训练集至少 90% 更难的 hard negatives。 此外,损失对训练数据中的标签错误具有潜在的鲁棒性,因为在整个训练集中对最难的负样本进行采样的概率有点低。

VSE++是基于排序的经典方法。基于排序的是主要利用排序损失使得公共空间中配对的样本距离小,不成对样本距离大。该类方法通常以三元组<a,p,n>的形式输入模型从而构建模态间的相似性,其中a表示anchor,即查询向量,p表示positive,与anchor配对的正样本,n表示negative,与anchor不配对的负样本。VSE++模型在特征提取上,图像采用了VGG19或者ResNet152进行了特征提取,文本采用了GRU进行特征提取;同时该方法最大的亮点在于提出了一个新的损失函数max hinge loss,它主张在排序过程中应该更多地关注困难负样例,困难负样本是指与anchor靠得近的负样本,实验结果也显示max hinge loss性能比之前常用的排序损失sum hinge loss好很多

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值