MMPreTrain是一个预训练开源算法框架,提供各种强大的预训练主干网络,并支持不同的预训练策略。
代码仓库: https://github.com/open-mmlab/mmpretrain
文档教程: https://mmpretrain.readthedocs.io/en/latest/
支持开箱即用的推理API和模型,包含丰富的相关任务:图像分类--图像描述--视觉问答--视觉定位---检索。
MMPreTrain安装步骤:
代码框架:
数据流:
配置文件:
深度学习模型的训练涉及几个方面:
--模型结构 模型有几层、每层多少通道数
--数据 数据集划分、数据文件路径、批大小、数据增强策略
--训练优化 梯度下降算法、学习率参数、epoch、学习率变化策略
--运行时 GPU、分布式环境配置
--辅助功能 如打印日志、定时保存cheakpoint等
配置文件运作方式:
残差学习集的基本思路:
残差网络ResNet的残差模块:
分布用于浅层网络和深层网络
ResNet网络结构:
-5级,每级包含若干残差模块,不同残差块个数不同ResNet结构
-每级输出分辨率减半,通道倍增
-全局平均池化压缩空间维度
-单层全连接层产生概率类别
推荐学习视频:6.2 使用pytorch搭建ResNet并基于迁移学习训练_哔哩哔哩_bilibili
Transformer:
注意力机制 Attention:通过注意力机制可以对图像中最重要的特征进行提取和建模
1D数据注意力机制计算逻辑:
通过Q查询对应的K经过softmax得到二维卷积权重,与v相乘得到最后结果。