Deep Supervised Cross-modal Retrieval

Deep Supervised Cross-modal Retrieval

Liangli Zhen∗ Peng Hu∗ Xu Wang Dezhong Peng†

解决问题:在不同模态下,样本生成可以直接比较的公共表示空间。不仅保证了公共空间各模态数据与标签的相似性,而且保证了语义区分和公共空间模态的不变性,可以有效地学习异构数据的公共表示。

主要思想:VGG-19提取图像特征,Word2Vec,CNN提取文本特征,创建线性分类器对样本生成标签,在标签空间和公共表示空间下最小化区别损失,同时,最小化两种模态在公共表示空间中所有样本的识别损失来学习多模态不变特征,为了消除跨模态数据差异,将所有图像到文本对之间的表示距离最小化。

创新点:(1)提出了一种基于深度监督的跨模态学习结构,以弥补不同模式间的异质性。通过端到端方式,同时保证语义区分和模态不变性,可以有效地学习异构数据的公共表示。(2)为了研究图像和文本模态之间的跨模态相关性,在最后一层建立了两个具有权值共享约束的子网络。将模态不变性损失直接表示为目标函数,消除了模态间的差异。(3)利用线性分类器对公共表示空间中的样本进行分类。这样,DSCMR最大限度地减少了标签空间和公共表示空间的区分损失,使得学习的公共表示具有显著的区分性。

相关代码:https://github.com/penghu-cs/DSCMR

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值