【避坑经验】训练CNN的MAE——自监督SparK预训练Designing BERT for Convolutional Networks

ZhouDevin

已于 2024-08-26 08:51:15 修改

阅读量540

点赞数 7

文章标签： cnn 深度学习人工智能图像处理 bert python pytorch

于 2024-08-21 15:08:47 首次发布

本文链接：https://blog.csdn.net/ZhouDevin/article/details/141394048

版权

MAE广泛应用于Transformer结构中，对于不同下游任务均有较好的优化效果，但如何用于CNN结构呢？

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

本篇论文发现并攻克了将BERT-style预训练或者图像mask建模应用到CNN中的两个关键障碍：

1） CNN不能处理不规则的、随机的掩码输入图像；
2）BERT预训练的单尺度性质与convnet的层次结构不一致

实现的预训练方法简称为SparK，代码仓库在配置环境中有一些坑，分享一些经验

1、首先建立虚拟环境

conda create -n spark python=3.8 -y
conda activate spark

2、然后拉取仓库到本地

git clone https://github.com/keyu-tian/SparK.git

3、安装相关算法库

pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html
pip install timm==0.5.4
cd SparK/pretrain
pip install -r requirements.txt

4、后续训练可能遇到的报错，建立提前安装避免报错

错误1：ModuleNotFoundError: No module named ‘pytz’

解决方式：

pip install --upgrade pytz

错误2：AttributeError: module ‘distutils’ has no attribute ‘ version’

解决方式：

pip install setuptools==59.5.0

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZhouDevin

关注关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

51-56 CVPR 2024 | UniPAD：A Universal Pre-training Paradigm for Autonomous Driving 自动驾驶的通用预训练范式

AIgraphX

06-03

1037

UniPAD提出了一种自动驾驶通用的自监督预训练范式，巧妙地将NeRF作为统一的3D渲染解码器，使其能够无缝集成到2D和3D框架中。

「Masked Autoencoders」MAE算法相关及后续工作整理

weixin_43745234的博客

04-07

1951

(MAE, Kaiming He et al.)由于其从丰富的未标记数据中学习有用表示的能力而重新引起了人们的兴趣。直到最近，MAE及其后续工作已经推进了最先进的技术，并在研究(特别是视觉研究)中提供了有价值的见解。在这里，列出了MAE之后或同时进行的几项后续工作，以启发未来的研究。

参与评论您还未登录，请先登录后发表或查看评论

深度学习｜MAE技术全景图：自监督学习的“掩码魔法“如何重塑AI基础

最新发布

紫雾凌寒

03-08

1448

自监督学习（Self-Supervised Learning, SSL）作为一种新兴范式，为这一困境提供了突破口。它无需人工标注，而是从数据自身结构中挖掘监督信号。例如，在图像领域，可以通过随机旋转图像并让模型预测旋转角度，或遮挡部分区域让模型重建缺失内容；在 NLP 中，BERT 通过预测掩码单词学习语义和语法。自监督学习的魅力在于，它将未标注数据的“废墟”转化为“金矿”，显著降低数据准备成本，同时提升模型的泛化能力。

ConvNeXt V2：用MAE训练CNN

wulele2的博客

02-26

1749

ConvNextV2是借助MAE的思想来训练ConvnextV1。

ICLR 2023 | SparK：为卷积网络设计BERT：稀疏和分层掩蔽建模

qq_45331246的博客

03-28

1494

CV、CNNs 进行Mask、VIT

MAE(掩码自编码器)是可扩展的计算机视觉自监督学习方法

weixin_51697828的博客

12-20

4112

原文：He,Kaiming,XinleiChen,SainingXie,YanghaoLi,PiotrDoll'arandRossB.Girshick.“MaskedAutoencodersAreScalableVisionLearners.”ArXivabs/2111.06377(2021). 1.Abstract 本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习方法。我们的MAE方法很简单：我们对输入图像的patches进行随机掩码...

何恺明大神代表之自监督学习MAE，简单高效。（凡人很难望其项背。。。）

qq_36101623的博客

01-05

941

与传统的自编码器不同，我们采用了一种不对称设计，允许编码器仅在部分观察到的信号（没有遮罩标记）上进行操作，并使用轻量级的解码器从潜在表示和遮罩标记中重构完整的信号。掩码自编码器的概念，是更一般的去噪自编码器的一种形式[58]，在计算机视觉中也是自然而适用的。然而，我们观察到（例如，图4），我们的遮罩自编码器推断出复杂而整体的重构，表明它已经学到了许多视觉概念，即语义。虽然在BERT中解码器可以是简单的（MLP）[14]，但我们发现在图像中，解码器的设计在确定学到的潜在表示的语义水平上起着关键作用。

MAE——自监督学习，何凯明大神作品

weiming0的博客

04-13

1496

MAE(Masked Autoencoders)是用于CV的自监督学习方法(对照于NLP的BERT），优点是扩展性强的（scalable），方法简单。在MAE方法中会随机mask输入图片的部分patches，然后重构这些缺失的像素。

BERT在CNN上也能用？看看这篇ICLR Spotlight论文丨已开源

字节跳动技术范儿

02-14

1230

在ResNet系列等卷积网络上首次超过SOTA对比学习

ICLR Spotlight | 卷积网络上的首个BERT/MAE预训练，ResNet也能用

TechBeat人工智能社区博客

04-13

696

BERT 预训练算法的思想其实是通用的：将输入的一部分信息给随机删除（去掉一句话中的若干个单词，或涂黑图片中的部分像素），并希望神经网络能够还原这些被删除部分（还原单词或像素，类似做完形填空），作者们提出把经过掩码操作（挖空操作）后的“零碎”图片视为稀疏点云，并使用子流形稀疏卷积来进行编码，让卷积网络自如处理随机删除后的图像，从而避开“涂黑”操作带来的问题。，作者们自然地设计了一种带有横向连接的编码器-解码器模型，让多尺度特征在模型的多层级之间流动，让 BERT 算法拥抱计算机视觉的多尺度金标准。

图像自监督学习——mae

Rain

11-23

501

③decoder时按照原始图像排列，把masked掉的path加回去（只有位置编码信息），没有被masked掉的path去encoder对应的编码特征即可。图像像素冗余信息较多，假如掩码掉的比例非常少，可以通过图像插值等操作拟合出来，对于模型而言生成的意义就少了。6.迁移任务中，编码器怎么用？重点在于随机mask的预处理是否保留，答案是不保留，将预训练模型参数加载到标准的vit中进行应用。2.关于bert是纯编码器的理解，李沐表示任何模型都有编码器和解码器，只不过bert的解码器就是最后的全连接层。

自监督语义分割面模型——(MAE)论文阅读与代码解析

qq_41627642的博客

07-17

3244

本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习算法。我们屏蔽输入图像的随机补丁并重建缺失的像素。它基于两个核心设计。首先，我们开发了一个非对称编码器-解码器架构，其中一个编码器仅对补丁的可见子集(没有掩码令牌)进行操作，以及一个轻量级解码器，该解码器从潜在表示和掩码令牌重建原始图像。其次，我们发现掩盖输入图像的高比例，例如75%，产生了一个重要的和有意义的自我监督任务。这两种设计的结合使我们能够高效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确性。

【无监督】2、MAE | 自监督模型提取的图像特征也很能打！（CVPR2022 Oral）

呆呆的猫的博客

08-14

1891

本文主要介绍 CVPR2022 Oral MAE 方法

大数据基础平台——Spark有监督学习

Hydrox_的博客

09-18

356

了解与认识线性回归模型、逻辑回归模型、决策树模型、随机森林模型、神经网络模型以及协同过滤推荐模型。

探索创新：SparK - 让任何卷积网络享受BERT风格预训练的优势！

gitblog_00088的博客

05-14

459

探索创新：SparK - 让任何卷积网络享受BERT风格预训练的优势！项目地址:https://gitcode.com/gh_mirrors/spark4/SparK 在深度学习的领域中，BERT（Bidirectional Encoder Representations from Transformers）预训练方法已经为Transformer模型带来了革命性的进步，但直到现在，卷积神经网络(...

【iclr2023】DESIGNING BERT FOR CONVOLUTIONAL NETWORKS: SPARSE AND HIERARCHICAL MASKED MODELING

lynn_Dai的博客

03-29

866

我们发现并攻克了将BERT-style预训练或者图像mask建模应用到CNN中的两个关键障碍：1） CNN不能处理不规则的、随机的掩码输入图像；2）BERT预训练的单尺度性质与convnet的层次结构不一致对于第一点，我们将没有被mask掉的像素点视作为3d点云（点云是一种方便的3D表达方式）的稀疏体素；使用sparse CNN进行编码，这是sparse CNN首次引入2d-mask建模；对于第二点，我们开发了一个hierarchical decoder来连接不同尺度的编码特征重建图像。

MAE技术总结

weixin_44733295的博客

01-08

741

MAE 方法很简单：mask 输入图像的随机 patch，并重建缺失的像素。它基于两个核心设计。首先，作者开发了一种非对称编码器-解码器结构，其中的编码器仅对可见的 patch 子集（不带 mask token）进行操作，而轻量级解码器则从潜在表示和 mask token 重建原始图像。其次，作者发现对输入图像的高比例（例如 75%）进行 mask 会产生一项困难且有意义的自监督任务。将这两种设计结合起来，能够高效地训练大型模型：加快训练速度（3 倍或更多）并提高精度。

spark监督学习和无监督学习

互联网知识分享

08-17

140

以上是监督学习和无监督学习的详细介绍，包括原理解说、参数介绍和代码示例。无监督学习通过未标记的数据发现数据中的模式和结构，适用于聚类、降维等问题。模型根据输入的特征预测输出标签，然后与实际标签进行比较，通过比较的结果来调整模型的参数，使其能够更准确地预测未知数据的标签。无监督学习是一种机器学习方法，与监督学习不同，无监督学习使用未标记的数据来训练模型。在监督学习中，常见的模型包括线性回归、逻辑回归、支持向量机、决策树、随机森林、神经网络等。这些模型有不同的参数设置和使用方式，根据具体的问题选择合适的模型。

RepRec：医学图像自监督学习的混合视觉表示框架

"自监督预训练中的表示恢复在医学图像上的混合视觉表示学习框架" 这篇研究集中在自监督预训练技术在医学图像分析中的应用，特别是针对医学图像的无标签数据集进行图像分割和深度学习模型的优化。随着自监督学习的...