[二师兄的成长手札]视觉/语义自监督&预训练一些问题和思考(1)




近两年大数据越来越受到重视,而其中自监督也逐步被证实能对业务带来收益。预训练的源头应该是从NLP开始,近两年逐步在视觉领域大放异彩,现在再来跟进想来也不算太晚。

NLP领域自监督任务的构建

nlp预训练相关的技术,学习中…

视觉预训练

不按照体系进行记录,读过的论文就随笔记录了

CVPR 2021_Dense Contrastive Learning for Self-Supervised Visual Pre-Training

https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_Dense_Contrastive_Learning_for_Self-Supervised_Visual_Pre-Training_CVPR_2021_paper.pdf,Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

文章的立意是,分类任务和稠密预测之间是有gap的,如果用分类任务做自监督pre-train,聚焦在学习全局特征,迁移到检测、分类这类稠密预测任务上,必然会有损失。因为稠密的任务更关注细节,比如像素级别的特征。

  • 首先,文章将backbone的输出改成稠密的像素级的特征向量,而不是单个全局的特征。
  • 然后,作者将InfoNCE loss改进为稠密的形态。
  • 最后,利用FCN实现稠密的对比学习。

问题
Q1:loss如何改进?
Q2:像素级的loss如何选择正负样本?如何设计比例和权重?
Q3:FCN的加入有什么特别的呢?

He et al. [18] (Rethinking imagenet pre-training, ICCV19) demonstrate that even we pre-train on extremely larger classification dataset (e.g., Instagram [27], which is 3000× larger than ImageNet), the transfer improvements on object detection are relatively small.

He证明了即使在更大的数据集上训练分类任务,迁移到检测任务上,提升仍然比较有限。

Method

前面提到了,该方法最大的改进有两点:

  • 网络的输出改成了稠密的方式,如下图Figure 2(b)
  • 对比loss改成了稠密的计算方式
    在这里插入图片描述
    loss改造的方式也比较直接,最关键的其实还是正负样本如何组合?
    在这里插入图片描述
    在这里插入图片描述
    从公式(3)上来看,最终的loss是包括了全局的特征和稠密的特征向量。

继续看下两个head之间如何计算corresponding?定义:
backbone输出的Feature map : F ∈ R H × W × K \textbf{F} \in \mathbb{R}^{H\times W \times K} FRH×W×K F 1 , F 2 \textbf{F}_1, \textbf{F}_2 F1,F2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值