DCMQ实验记录

最新推荐文章于 2024-06-11 09:54:26 发布

Let's Go G2

最新推荐文章于 2024-06-11 09:54:26 发布

阅读量487

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_41831542/article/details/111212842

版权

本文记录了基于DCMQ的深度学习实验，使用MSCOCO数据集进行跨模态检索。实验中，利用CVSE提取1024维的公共特征，采用DPQ进行量化，探讨了点积相似度与欧氏距离的关系，并在MSCOCO 1k上进行了初步实验。

摘要由CSDN通过智能技术生成

Deep Cross Modal Quantization

Problem Formulation

本文采用的数据集（MSCOCO, Flickr30k）由图像文本对组成，input={xⁱ_k, x^t_k, k=1…N}, 数据集的划分也只有train set和valid set两种。在训练过程中，对与输入的文本对，我们通过现有的SOTA模型提取出两个模态输入在common space的特征，接着采用DPQ量化器对这些特征进行量化，利用其设定的量化损失来更新码本，量化损失直至收敛。在测试（或称做查询）的阶段，我们使用valid set的X^t作为查询向量，接着用训练好的特征提取器以及码本对valid set中的Xⁱ进行量化，作为database，然后进行查询操作，由于对于每一个x^t_i,在database里有且仅有一个匹配的向量，所以最后的检索指标是Recall@1/5/10。

这里说下上述任务的描述与传统quantization不一样的地方：
· 数据集本身的标注，本任务每个文本只有一个匹配的图像（虽然一个图像匹配五句话，但是在实际数据集预处理里面将图像复制了5遍，所以仍是一张图只对应一句话），而传统量化任务是通过多标签是否有重合来判断两个向量是否匹配。
· 数据集的划分，本任务是划分为训练集和测试集，database只取测试集与训练集无关。而量化任务是分为query set和database，训练时只用database训练，查询时用query set向database进行检索。本任务还是为了对齐现有的跨模态检索的验证方式，所以在数据及划分有所不同，并且本任务的query set和database是肯定没有匹配的一对的。

Method

公共空间的特征提取

采用了CVSE（2020 CVPR SOTA，具体分析见cross modal博客）来提取公共特征，提好的特征是1024维度的，文本和图片向量51w对（其中图片是10w左右的向量拷贝了五次）。这篇文章利用向量计算相似度的方式是直接点积（注意，这里的向量并没有归一化，所以点积并不等于余弦相似度，还与向量的模有关，实际上我做过归一化实验，用归一化的向量计算相似度会掉很多点）
特征的量化
采用的DPQ(2019 IJCAI SOTA, 具体分析见quantization papers博客)进行多码本量化，但这里存在一些事先逻辑上的问题，DPQ的假设是建立在保留向量之间的欧氏距离，但保留欧氏距离可能并不能很好的保留点积的结果。