DCMQ实验记录

Deep Cross Modal Quantization

Problem Formulation

本文采用的数据集(MSCOCO, Flickr30k)由图像文本对组成,input={xik, xtk, k=1…N}, 数据集的划分也只有train set和valid set两种。在训练过程中,对与输入的文本对,我们通过现有的SOTA模型提取出两个模态输入在common space的特征,接着采用DPQ量化器对这些特征进行量化,利用其设定的量化损失来更新码本,量化损失直至收敛。在测试(或称做查询)的阶段,我们使用valid set的Xt作为查询向量,接着用训练好的特征提取器以及码本对valid set中的Xi进行量化,作为database,然后进行查询操作,由于对于每一个xti,在database里有且仅有一个匹配的向量,所以最后的检索指标是Recall@1/5/10。

这里说下上述任务的描述与传统quantization不一样的地方:
· 数据集本身的标注,本任务每个文本只有一个匹配的图像(虽然一个图像匹配五句话,但是在实际数据集预处理里面将图像复制了5遍,所以仍是一张图只对应一句话),而传统量化任务是通过多标签是否有重合来判断两个向量是否匹配。
· 数据集的划分,本任务是划分为训练集和测试集,database只取测试集与训练集无关。而量化任务是分为query set和database,训练时只用database训练, 查询时用query set向database进行检索。本任务还是为了对齐现有的跨模态检索的验证方式,所以在数据及划分有所不同,并且本任务的query set和database是肯定没有匹配的一对的。


Method

  1. 公共空间的特征提取

    采用了CVSE(2020 CVPR SOTA, 具体分析见cross modal博客)来提取公共特征,提好的特 征是1024维度的,文本和图片向量51w对(其中图片是10w左右的向量拷贝了五次)。这篇文章利用向量计算相似度的方式是直接点积(注意,这里的向量并没有归一化,所以点积并不等于余弦相似度,还与向量的模有关,实际上我做过归一化实验,用归一化的向

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值