什么是多模态检索?
现实生活中常有图搜图,文本搜文本,视频搜视频的应用,这些都是单模态检索。多模态检索就是,不同类别之间的搜索,比如用文本搜图,用图搜文本等,这类情况称为多模态检索。
这篇论文的意义?
传统的都是手动提取特征方法,这篇论文将特征提取和二进制码生成一起构成一个端到端的学习过程。
贡献
-
提出了一个端到端的学习框架
-
直接离散优化生成二进制编码
-
实验证明效果很好
网络模型
图像卷积部分
结构:
其实就是类似AlexNet网络,输出是维度是二进制编码长度。
文本部分
结构:
用Bag-of-words模型向量来表示文本,然后通过两层全连接,输出为二进制编码。
损失函数构建
其中: S i j S_{ij} Sij代表相似矩阵,根据标签获取。比如说我们可以认为图像 x i x_i xi<