PIRL论文阅读

最新推荐文章于 2022-08-29 20:05:03 发布

JLU-C++

最新推荐文章于 2022-08-29 20:05:03 发布

阅读量499

点赞数 1

分类专栏：目标检测文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/qeqjkqjklq/article/details/109011581

版权

目标检测专栏收录该内容

16 篇文章 0 订阅

订阅专栏

自监督学习不是特定的一种算法，而是一类算法，如word2vec，BERT，MOCO，PIRL等都属于自监督学习；
和监督式机器学习一样，自监督学习训练时也需要features和labels，不同之处在于自监督学习的label不需要通过人为标记完成，而是自动生成的；
自监督学习不针对特定应用场景，而是通用性预训练；

主要看这篇知乎：https://zhuanlan.zhihu.com/p/108087827

在这里插入图片描述

题目： 前置不变表示的自监督学习
简称，PIRL：Pretext-Invariant Representations Learning前置不变表示学习

思想:对data augmentation后的图像和其他的图像去做contrastive learning

Invariant：不变的

在这里插入图片描述

Pretext：借口,这里为前置

pretext task(前置任务)：在自监督学习中，用于预训练的任务
downstream task(下游任务)：用于微调的任务

在这里插入图片描述

该算法属于图像识别领域的预训练，即不针对特定图像识别应用场景；该算法完成预训练后可通过迁移学习应用到特定场景中去；

该算法的特别之处在于Pretext Invariant Representations（预任务不变表征），即定义一个表征网络N；
图像A经过N得其表征为A_f，对图像A处理（如图所示的拼图重排）后得图像a经过N得其表征为a_f；
经过训练后使得A_f和a_f很相近，接近于没怎么变化，同时A_f和x_f（x≠a）却相差很大。

上图中I是原图像，I_t是图像I处理后的图像。

在这里插入图片描述

图像I经res5网络（即ResNet-50的前5层），然后以此进行一次average pooling和一次线性映射得到一个128维的向量表征；
图像I分为3块拼图，每块拼图都分别经res5网络处理后进行一次average pooling， 然后分别进行一次线性映射得到3个总共128维的向量，
将这3个向量随机排序后合并，然后再进行一次线性映射得到一个128维的向量表征；
M Memory Bank和MOCO（另一篇自监督2020的CVPR）中的Memory Bank类似，其保存了所有图像I的f(v_I)表征；针对每一张图像I在多轮训练时，
每一轮训练都会生成一次f(v_I)，而Memory Bank中得mI是多次f(v_I)得指数移动平均值；

在这里插入图片描述

places205数据集：地点总共包含超过1000万张图片，其中包含400多个独特的场景类别。
该数据集每班具有5000至30,000个训练图像，与实际发生的频率一致。使用卷积神经网络（CNN），Places数据集允许学习用于各种场景识别任务的深层场景特征，
目的是在以场景为中心的基准上建立新的最新性能

iNat：没找到

在这里插入图片描述

JLU-C++

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PIRL论文阅读

自监督学习不是特定的一种算法，而是一类算法，如word2vec，BERT，MOCO，PIRL等都属于自监督学习；和监督式机器学习一样，自监督学习训练时也需要features和labels，不同之处在于自监督学习的label不需要通过人为标记完成，而是自动生成的；自监督学习不针对特定应用场景，而是通用性预训练；主要看这篇知乎：https://zhuanlan.zhihu.com/p/108087827题目：前置不变表示的自监督学习简称，PIRL：Pretext-Invariant Repr
复制链接

扫一扫