(G)ZS-CMR数据划分

最新推荐文章于 2022-09-05 15:51:08 发布

HackerTom

最新推荐文章于 2022-09-05 15:51:08 发布

阅读量212

点赞数

分类专栏：机器学习文章标签： ZS-CMR GZS-CMR ZSL GZSL 信息检索

本文链接：https://blog.csdn.net/HackerTom/article/details/117772503

版权

120 篇文章 16 订阅

订阅专栏

(G)ZS-CMR 即（广义）零样本跨模态检索，设置类比（广义）零样本学习 (G)ZSL。

这里记录两种划分，不限 CMR，也可以是 image retrieval。

ZS-CMR

参考 [1]，类比 ZSL。整个数据集先从 class 角度分 seen（S）和 unseen（U）两部分，各自分 query（Q）和 database（D）两个子集，所以共 4 部分：

	S	U
Q	SQ	UQ
D	SD	UD

其中 SD 用来做 training set。测试时分两种：SQ 检索 SD、UQ 检索 UD。

这对于 single-label data 没有疑问，而对于 multi-label data，则其实会有「既 S 且 U」的第 5 部分数据，不属上述 4 种，被直接舍弃，整个 pipeline 都没它的事。

参考 [2]，类比 GZSL。划分类似传统 CMR（参考 [3]），整个数据集也是划成 Q 和 D，D 中一个（有标注的）子集（labeled D）作为 training set，剩余的视为无标注数据（unlabeled D）。

主要区别是限制了 training set 包只含纯 S 的数据，而 Q 和 D 中无标注的部分则可以有 S 或 U。

	Q	labeled D	unlabeled D
普通 CMR	S + U	S + U	S + U
GZS-CMR	S + U	S only	S + U

这种 setting 无论 single- 或 multi-label，都不会将 ZS-CMR 那样有被弃用的部分数据。

用完全出自 U 的数据（纯 U）测试，可以更直接地体现 knowledge transferring 的效果，即在 ZS-CMR 中用 UQ 和 QD 做的实验。

而在 GZS-CMR 中，最终 performance 有部分是带 S 的数据贡献的，对 transferring 效果的体现不够单纯。此时可以将 Q 和 unlabeled D 中纯 U 的数据抽出来，重新划分 UQ’ 和 UD’ 做测试。

这样做的效果跟 ZS-CMR 中在 U 上的实验应该是等效的：

关注

专栏目录