![](https://img-blog.csdnimg.cn/20190918140012416.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
-江户川-的自监督论文集
文章平均质量分 87
记录自监督的论文阅读笔记,包含对比学习等等。
-江户川-
华东师大 stats | 香港大学 ds
展开
-
「ViT」An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
对有更高解析度的下游任务图片使用2D interpolation:下游任务具有更高的 resolution 时候通常表现更好,而ViT保持与pretrained model相同大小的 patch size 时,sequence len肯定会变长,那么pos embedding失效,需要做2D 插入.Bert 里 [CLS] 加入sentence embedding 的作用是这个符号学到的表征能够表示文本的语义信息,类似的,图片处理中也加入 [CLS],本质是一系列被切割的小图片展平,所以这个序列一共包含。.原创 2022-08-16 00:15:00 · 156 阅读 · 0 评论 -
「BEiT」BERT Pre-Training of Image Transformers
BEiT 提出了一种自监督学习图像表征的方法,核心思想是预训练任务实现 BEiT encoder 分类预测 mask patch 的 token。思路迁移自 BERT 的 encoder 结构,图像输入处理一方面将图像转为 patch 序列(ViT) ,另一方面用固定范围的 token 代替图片像素。Stage2: 256 BPE-encoded 的文本 tokens 与 1024个图像 tokens 结合作为输入,训练一个自回归 transformer,刻画文本和图像 token 的联合概率分布。...原创 2022-08-15 15:32:57 · 882 阅读 · 0 评论 -
自监督|「CoCLR」视频自监督对比学习笔记
CoCLR 本质是一种用 flow 网络和 RGB 网络交替采样的无监督预训练方法。原创 2022-04-07 16:58:19 · 4874 阅读 · 1 评论 -
自监督|「SimCLR」对比学习阅读笔记
SimCLR 是对比学习的奠基作之一,模型结构对称、简单又有效原创 2022-02-10 12:02:17 · 3097 阅读 · 0 评论 -
自监督|「NNCLR」阅读笔记
NNCLR 采用类似 SimCLR,核心变化在于数据增强得到的一对正样本中的一张去找最近邻、另一张不变,这两者计算 cross entropy原创 2022-01-24 17:54:07 · 2789 阅读 · 0 评论 -
自监督|「ResNet v1」阅读笔记
ResNet v1 用浅层学习 x,再用深层为 residual 建模原创 2022-01-19 14:58:27 · 2632 阅读 · 0 评论