【ICCV 2023】CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification

论文原文:https://arxiv.org/pdf/2307.16634.pdf

关键词:多标签 图像分类 CLIP 无监督

研究动机

  • CLIP往往适合单标签分类,而不适合多标签分类
  • 多标签的注释获取往往是带有噪声的

本文方法:

  • 伪标签初始化。聚合全局和局部信息,令CLIP关注多类对象。
  • 梯度对齐训练。递归地更新网络参数和伪标签(潜在参数)。

整个方法的流程

在这里插入图片描述
分为三阶段:

  • 伪标签初始化。
  • 梯度对齐训练。【就是在训练那个backbone以及第一阶段的参数?】
  • 推理

(1)伪标签初始化

局部信息的利用,是为了让看到图片中更多的信息。

将图片分割成很多小的snippet,并编码,就可以看到图片中角落里的信息,实现多标签。
在这里插入图片描述

(2)梯度对齐训练

loss函数:KL散度
训练:

  • 应该是先固定伪标签(当做常数),计算KL loss(预测标签和伪标签之间),更新网络参数【backbone网络吧】;
  • 然后是 固定预测标签,更新伪标签的潜在参数【?应该是初始化阶段的网络】,更新之后在固定伪标签参数。

实验结果:

在这里插入图片描述
在无监督的各种方法中mAP最高,而且快赶上Weakly Supervision的方法了。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值