多模态检索Deep Cross-Modal Hashing

什么是多模态检索?

现实生活中常有图搜图,文本搜文本,视频搜视频的应用,这些都是单模态检索。多模态检索就是,不同类别之间的搜索,比如用文本搜图,用图搜文本等,这类情况称为多模态检索。

这篇论文的意义?

传统的都是手动提取特征方法,这篇论文将特征提取和二进制码生成一起构成一个端到端的学习过程。

贡献

  • 提出了一个端到端的学习框架

  • 直接离散优化生成二进制编码

  • 实验证明效果很好

网络模型

网络模型

图像卷积部分

结构:
在这里插入图片描述
其实就是类似AlexNet网络,输出是维度是二进制编码长度。

文本部分

结构:
在这里插入图片描述
用Bag-of-words模型向量来表示文本,然后通过两层全连接,输出为二进制编码。

损失函数构建

在这里插入图片描述
其中: S i j S_{ij} Sij代表相似矩阵,根据标签获取。比如说我们可以认为图像 x i x_i xi<

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值