A Simple Framework for Contrastive Learning of Visual Representations论文笔记

写在前面

大三狗第一次精读论文。随手记录,不喜勿喷。

本文主要思想

一个良好的数据增强方式对表征的提取是至关重要的。
不同的数据增强方式会影响正负例的设置,从而会影响我们获取到的表征,也就是我们从原图中获取到的信息。
增加一个非线性的转换器来让对比损失在一个新的latent space中计算。
这种方式可以让表征更多地保留原图的重要信息。
需要一个更大的batch size。
为了提供更加丰富的负例的数量。

框架

在这里插入图片描述

作者通过选择多种数据增强方式,并实验绘制了热力图选择了三种重要的数据增强方式。
在这里插入图片描述

最为重要的数据增强方式是随机裁剪、随机颜色扰乱、高斯模糊。其中颜色扰乱至关重要。

为什么颜色扰乱如此重要呢?可能是因为神经网络原本并没有提取到图片重要的信息,而是根据色彩风格来进行识别(被神经网络钻空子了)。

数据增强方式如此就确定为:随机裁剪必选,颜色扰乱、高斯模糊两者二选一这样两个增强方式。从而获得Xi和Xj。
在这里插入图片描述

然后再通过一个编码器f()将Xi和Xj映射到一个latent space当中,得到想要的表征h(i)。
但损失函数不在这个latent space当中进行计算。
再用一个非线性的转化函数g()将把h映射到一个新的latent space中,得到表征z(i),在这个空间计算损失函数。

为什么在新的latent space当中计算损失函数呢?
作者给出假设:损失函数可能会导致提取出来的表征损失一部分信息。
作者做了一个小实验:他让h(i)和z(i)分别进行预测表征对应的图片的数据增强方式。
在这里插入图片描述

结果发现g(h(i))并不能很好地认识表征到底进行了哪种图片数据增强方式,可见z(i)其实损失了一部分数据增强的信息,因此用h(i)作为原图片的表征更加合适。

结论

作者实验发现他的框架得到的表征质量非常高,能够比较好的涵盖原图片的global feature,而不去关注一些噪音。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值