(G)ZS-CMR数据划分

(G)ZS-CMR 即(广义)零样本跨模态检索,设置类比(广义)零样本学习 (G)ZSL。

这里记录两种划分,不限 CMR,也可以是 image retrieval。

ZS-CMR

参考 [1],类比 ZSL。整个数据集先从 class 角度分 seen(S)和 unseen(U)两部分,各自分 query(Q)和 database(D)两个子集,所以共 4 部分:

SU
QSQUQ
DSDUD

其中 SD 用来做 training set。测试时分两种:SQ 检索 SD、UQ 检索 UD。

这对于 single-label data 没有疑问,而对于 multi-label data,则其实会有「既 S 且 U」的第 5 部分数据,不属上述 4 种,被直接舍弃,整个 pipeline 都没它的事。

GZS-CMR

参考 [2],类比 GZSL。划分类似传统 CMR(参考 [3]),整个数据集也是划成 Q 和 D,D 中一个(有标注的)子集(labeled D)作为 training set,剩余的视为无标注数据(unlabeled D)。

主要区别是限制了 training set 包只含纯 S 的数据,而 Q 和 D 中无标注的部分则可以有 S 或 U。

Qlabeled Dunlabeled D
普通 CMRS + US + US + U
GZS-CMRS + US onlyS + U

这种 setting 无论 single- 或 multi-label,都会将 ZS-CMR 那样有被弃用的部分数据。

Comparison

用完全出自 U 的数据(纯 U)测试,可以更直接地体现 knowledge transferring 的效果,即在 ZS-CMR 中用 UQ 和 QD 做的实验。

而在 GZS-CMR 中,最终 performance 有部分是带 S 的数据贡献的,对 transferring 效果的体现不够单纯。此时可以将 Q 和 unlabeled D 中纯 U 的数据抽出来,重新划分 UQ’ 和 UD’ 做测试。

这样做的效果跟 ZS-CMR 中在 U 上的实验应该是等效的:

  1. training set 同样只包含纯 S 数据,没有带 U 的数据,跟 ZS-CMR 一致;
  2. 且 Q 和 unlabeled D 包含了所有纯 U 数据,即跟 ZS-CMR 中的 U(也是纯 U)实际上是同一个集合;
  3. 只要 UQ’ 和 UD’ 跟 ZS-CMR 中的 UQ 和 UD(在数量上)一致,那其实跟 ZS-CMR 在 U 上的实验是一样的;
  4. 若训练时没有用到 unlabeled D,就是完全一样的。

References

  1. arXiv 2017 | A new evaluation protocol and benchmarking results for extendable cross-media retrieval
  2. TIP 2019 | Generalized Zero-Shot Cross-Modal Retrieval
  3. CVPR 2017 | Deep Cross-Modal Hashing
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值