深度学习预训练与MMPretrain

nty102

已于 2023-06-06 09:23:40 修改

阅读量220

点赞数

分类专栏： MMLab学习文章标签：深度学习人工智能机器学习

于 2023-06-06 08:57:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nty102/article/details/131059948

版权

MMLab学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

MMPreTrain是一个开源的预训练算法库，支持多种视觉任务如图像分类、描述等，提供ResNet、VisionTransformer等主干网络。此外，文章介绍了自监督学习中的SimCLR和MAE方法，以及多模态算法CLIP和BLIP的应用。

摘要由CSDN通过智能技术生成

一、MMPreTrain算法库介绍

MMPretrain 是一个全新升级的预训练开源算法框架，旨在提供各种强大的预训练主干网络，并支持了不同的预训练策略。
MMPretrain 源自MMClassification和MMSelfSup，并开发了许多令人兴奋的新功能。目前，预训练阶段对于视觉识别至关重要，凭借丰富而强大的预训练模型，我们能够改进各种下游视觉任务。我们的代码库旨在成为一个易于使用和用户友好的代码库，并简化学术研究活动和工程任务。

代码仓库:https://github.com/open-mmlab/mmpretrain

文档教程: https://mmpretrain.readthedocs.io/en/latest/

1.1 算法库与任务组成

支持开箱即用的推理API和模型，包含丰富的相关任务

图像分类(Image Classification)
图像描述(lmage Caption)
视觉问答(Visual Question Answering)
视觉定位(Visual Grounding)
检索(Retrieval,lmage-To-lmage, Text-To-lmage,Image-To-Text)

1.2 框架概览

代码框架：

数据流介绍：整体模型流程

配置文件的运行方法：

二、经典主干网络

2.1 ResNet

根据ALexNet（2012），VGG（2014），GoogleNet(2014)，训练得知；

1，模型层数增加到一定程度后，分类争取率不增反降，深度增加模型收敛出现问题，

现象：卷积退化为恒等映射时，深层网络与浅层网络相同，所以，深层网络应具备不差于浅层网络的分类精度
猜想:虽然深层网络有潜力达到更高的精度，但常规的优化算法难以找到这个更优的模型即，让新增加的卷积层拟合一个近似恒等映射，恰好可以让浅层网络变好一点

ResNet-34 ImageNet Top-5 准确率：94.4%；

深度学习领域影响力最大、使用最广泛的模型结构之一，获得CVPR 2016 最佳论文奖

残差结构也一直被广泛应用至今，不论计算机视觉的如今的各类视觉 Transformer 或者是ConvNeXt这类卷积神经网络，亦或是近期大火的GPT 及各类大语言模型中都有着残差结构的身影。

2.2 Vision Transformer

将图像切分成若干16x16 的小块，所有块排列成词向量”，先经过线性层映射，一张H,WC]维度的图片变为[L,C]，再经多层Transformer Encoder 的计算产生相应的特征向量
图块之外加入额外的token，用于query 其他 patch 的特征并给出最后分类
注意力模块基于全局感受野，复杂度为尺寸的4次方

三、自监督学习

市面上存在海量数据，标注好的数据很少，研究员们为了利用这些数据，而不依赖标注，让深度神经网络能够从数据本身学到对应的特征表达；

早期是根据各种概率任务进行，图像上色，乱序重拍等

3.1 SimCLR

基本假设:如果模型能很好地提取图片内容的本质，那么无论图片经过什么样的数据增强操作，提取出来的特征都应该极为相似。

3.2 MAE

基本假设:模型只有理解图片内容、掌握图片的上下文信息，才能恢复出图片中被随机遮挡的内容。

四、多模态算法

4.1 CLIP

4.2 BLIP

nty102 CSDN认证博客专家 CSDN认证企业博客

码龄12年

34: 原创

45万+: 周排名

14万+: 总排名

2万+: 访问

: 等级

624: 积分

194: 粉丝

276: 获赞

15: 评论

323: 收藏

私信

关注

热门文章

分类专栏

书生浦语实战营第二期 3篇
MMLab学习 10篇

最新评论

人体姿态估计（Human Pose Estimation）
2401_82868162: 有ppt了嘛，我们这个学期要用
人体姿态估计（Human Pose Estimation）
sinat_39505652: hrnet是自底向上的方法吧
XTuner InternLM-Chat 个人小助手认知微调实践
CSDN-Ada助手: 恭喜作者在XTuner InternLM-Chat 个人小助手认知微调实践方面的博客发表了第17篇文章！阅读了您的文章后，我对这个主题有了更深的理解。不过，在未来的创作中，我建议您可以尝试结合一些实际案例或者个人经历，让读者更容易理解和接受您的观点。希望您在创作的道路上不断进步，期待您的下一篇精彩文章！
Xtuner大模型低成本微调
CSDN-Ada助手: 恭喜您发布了第18篇博客！看到您对Xtuner大模型低成本微调的深入研究和总结，让我感到非常欣慰。您的文章内容丰富，观点独特，让人受益匪浅。在下一步的创作中，我建议您可以尝试结合实际案例，或者对比不同的调整方法，以及可能的优缺点，给读者提供更多实用的经验分享和建议。希望您能继续保持热情，不断进步，期待您更多精彩的作品！
基于 InternLM 和 LangChain 搭建你的知识库
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你不断分享关于基于 InternLM 和 LangChain 搭建知识库的内容，真的很受启发。不过，我想提一个小建议，希望你能够在下一篇文章中，加入一些实际操作的案例，让读者更容易理解和跟随你的思路。期待你的下一篇作品！加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。