论文原文:https://arxiv.org/pdf/2307.16634.pdf
关键词:多标签 图像分类 CLIP 无监督
研究动机
- CLIP往往适合单标签分类,而不适合多标签分类
- 多标签的注释获取往往是带有噪声的
本文方法:
- 伪标签初始化。聚合全局和局部信息,令CLIP关注多类对象。
- 梯度对齐训练。递归地更新网络参数和伪标签(潜在参数)。
整个方法的流程
分为三阶段:
- 伪标签初始化。
- 梯度对齐训练。【就是在训练那个backbone以及第一阶段的参数?】
- 推理
(1)伪标签初始化
局部信息的利用,是为了让看到图片中更多的信息。
将图片分割成很多小的snippet,并编码,就可以看到图片中角落里的信息,实现多标签。
(2)梯度对齐训练
loss函数:KL散度
训练:
- 应该是先固定伪标签(当做常数),计算KL loss(预测标签和伪标签之间),更新网络参数【backbone网络吧】;
- 然后是 固定预测标签,更新伪标签的潜在参数【?应该是初始化阶段的网络】,更新之后在固定伪标签参数。
实验结果:
在无监督的各种方法中mAP最高,而且快赶上Weakly Supervision的方法了。