《Ternary Adversarial Networks With Self-Supervision for Zero-Shot Cross-Modal Retrieval》论文学习

摘要

受到zero-shot learning的启发,提出了一种新模型,Ternary Adversarial Networks With Self-Supervision(三元对抗网络的自监督TANSS);
亮点:
1.两个语义特征学习子网络,获取不同模态的内部数据结构,在公共语义空间保留模态关系。
2.一个自监督的语义子网络,运用可见和不可见的类别标签作为guide指导知识从可见到不可见迁移。
3.利用多抗学习的方案来最大化不同模态之间语义特征的相关性和一致性。
可实现
三个子网已集成到的TANSS中,以制定可实现高效迭代参数优化的端到端网络体系结构。

论文框架

1.提出了一种新型的网络结构TANSS,它能够更高效的学习公共语义空间,能够对可见类的源集数据和未可见类的目标集数据进行概括。
2.自监督的方案被用于可见于不可见的标签的词向量,用循环一致约束监督语义特征学习过程,证明了语义的相关性,加强了知识向目标中的不可见类迁移。
3.以词向量为导向,集合了对抗生成网络区分不同模态在共同语义空间中生成的语义特征。减少了不同模态之间的鸿沟和证明了跨模态的语义相关性

TANSS的结构优势

在这里插入图片描述

1.三只对抗网络能够提取在公共子空间的类别语义,和概括可见标签和不可见标签。
2.TANSS能够准确利用标签的词向量使得知识从看的见的向看不见的进行迁移。
3.TANSS中的两个判别器能够更好地消除模态鸿沟。

提出方法

Self-Supervised Semantic Learning in LabNet

在这里插入图片描述
对于两个标签yi和yj,成对的相似度Sij,可以表示如上

在这里插入图片描述
因此,可以将公共子空间中语义特征之间的相似性转换为计算两个标签嵌入的内积。上述中的损失项可以有效地度量成对语义特征的相似性。

特别是,主张确保源集中的可见标签和目标集中的不可见标签的周期一致性
实际上,考虑到回归器中针对看不见的标签的循环一致性,可以将知识转移到看不见的标签,并缓解源和目标集之间的语义不一致。

在这里插入图片描述
此外,相似的语义特征应具有相同的标签,以保留对公共子空间中标签的区分
在这里插入图片描述
前面代表预测的label,后面代表正是的label
在这里插入图片描述

1.从Sij的相似性,2.看不见的标签的循环一致性,3.相似语义的相同标签

ImgNet和TxtNet中特定于模态的特征学习

在整个图像中保持实例的语义相关性和文本模式,在ImgNet和TxtNet中均以LabNet为指导,对它们特定于模式的特征学习过程进行了明确的监督。
在这里插入图片描述
图像(文本)和类别嵌入的语义特征的相似性

在这里插入图片描述
在这里插入图片描述
相同的语义特征应该有相同的标签,所以真正的label y 与图片和文本两个预测出来的l奥label 的loss有,

在这里插入图片描述
则综上,成对相似损失和分类损失有
在这里插入图片描述

Adversarial Learning in TANSS

为缓解不同方式的异构数据分布,在公共子空间中获得模态不变的语义特征,使用了对抗学习的方案。
在这里插入图片描述
p的取值为0,1 代表了实例的语义特征是属于image or text,
TANSS的三个子网络的损失和对抗网络的损失如下
在这里插入图片描述

总结:自己还是只能看到表面,感受不到想法的奇特与精妙,还需要假以时日!!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值