PIRL论文阅读

自监督学习不是特定的一种算法,而是一类算法,如word2vec,BERT,MOCO,PIRL等都属于自监督学习;
和监督式机器学习一样,自监督学习训练时也需要features和labels,不同之处在于自监督学习的label不需要通过人为标记完成,而是自动生成的;
自监督学习不针对特定应用场景,而是通用性预训练;

主要看这篇知乎:https://zhuanlan.zhihu.com/p/108087827

在这里插入图片描述

题目: 前置不变表示的自监督学习
简称,PIRL:Pretext-Invariant Representations Learning前置不变表示学习

思想:对data augmentation后的图像和其他的图像去做contrastive learning

Invariant:不变的

在这里插入图片描述
在这里插入图片描述

Pretext:借口,这里为前置

pretext task(前置任务):在自监督学习中,用于预训练的任务
downstream task(下游任务):用于微调的任务

在这里插入图片描述

该算法属于图像识别领域的预训练,即不针对特定图像识别应用场景;该算法完成预训练后可通过迁移学习应用到特定场景中去;

该算法的特别之处在于Pretext Invariant Representations(预任务不变表征),即定义一个表征网络N;
图像A经过N得其表征为A_f,对图像A处理(如图所示的拼图重排)后得图像a经过N得其表征为a_f;
经过训练后使得A_f和a_f很相近,接近于没怎么变化,同时A_f和x_f(x≠a)却相差很大。

上图中I是原图像,I_t是图像I处理后的图像。

在这里插入图片描述
在这里插入图片描述

图像I经res5网络(即ResNet-50的前5层),然后以此进行一次average pooling和一次线性映射得到一个128维的向量表征;
图像I分为3块拼图,每块拼图都分别经res5网络处理后进行一次average pooling, 然后分别进行一次线性映射得到3个总共128维的向量,
将这3个向量随机排序后合并,然后再进行一次线性映射得到一个128维的向量表征;
M Memory Bank和MOCO(另一篇自监督2020的CVPR)中的Memory Bank类似,其保存了所有图像I的f(v_I)表征;针对每一张图像I在多轮训练时,
每一轮训练都会生成一次f(v_I),而Memory Bank中得mI是多次f(v_I)得指数移动平均值;

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

places205数据集:地点总共包含超过1000万张图片,其中包含400多个独特的场景类别。
该数据集每班具有500030,000个训练图像,与实际发生的频率一致。使用卷积神经网络(CNN),Places数据集允许学习用于各种场景识别任务的深层场景特征,
目的是在以场景为中心的基准上建立新的最新性能

iNat:没找到

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值