多模态检索Deep Cross-Modal Hashing

最新推荐文章于 2024-10-06 19:51:44 发布

xc__

最新推荐文章于 2024-10-06 19:51:44 发布

阅读量9.2k

点赞数 2

分类专栏：跨模态检索文章标签：深度学习信息检索人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38102073/article/details/104540018

版权

什么是多模态检索？

现实生活中常有图搜图，文本搜文本，视频搜视频的应用，这些都是单模态检索。多模态检索就是，不同类别之间的搜索，比如用文本搜图，用图搜文本等，这类情况称为多模态检索。

这篇论文的意义？

传统的都是手动提取特征方法，这篇论文将特征提取和二进制码生成一起构成一个端到端的学习过程。

贡献

提出了一个端到端的学习框架
直接离散优化生成二进制编码
实验证明效果很好

网络模型

网络模型

图像卷积部分

结构：
在这里插入图片描述
其实就是类似AlexNet网络，输出是维度是二进制编码长度。

文本部分

结构：
在这里插入图片描述
用Bag-of-words模型向量来表示文本，然后通过两层全连接，输出为二进制编码。

损失函数构建

在这里插入图片描述
其中： $S_{ij}$ 代表相似矩阵，根据标签获取。比如说我们可以认为图像 $x_i$

最低0.47元/天解锁文章

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。