【亲测】Swin-Transformer 自定义数据集图像分类

Swin-Transformer是当前热门的深度学习框架,适用于多种视觉任务,相关的原理,网上有很多资源,大家可自行查看,这里主要介绍其在图像分类方面的代码调试经验,方便各位快速上手实验。Swin-Transformer代码链接点击进入

在这里插入图片描述

实验环境及配置:
Pytorch: 1.7.1
CUDA: 10.1.243 版本(使用 nvcc --version 查看)
GPU:显存8G
操作系统: Centos 7
1 环境配置

其实根据官方的配置步骤,可以实现快速的配置,但是在进行到 Nvidia apex 那个步骤的时候,可能会出现一些问题,因为可能我们不是那么容易安装 apex 这个加速框架,等下会进一步介绍。下面先按照代码官方的配置过程来:

1.1 下载官网代码,也可以用官网推荐的以下命令:

git clone https://github.com/microsoft/Swin-Transformer.git (可能会出翔网络问题)
cd Swin-Transformer (进入下载的文件夹)

如果您的网络有问题,不能使用以上命令下载,则直接在官网界面点击下载 zip 压缩包,再进行解压就行。
在这里插入图片描述
1.2 创建并激活虚拟环境,使用以下命令:

conda create -n swin python=3.7 -y (其中虚拟环境 swin 名字,可以自定义)
conda activate swin (进入该虚拟环境)

1.3 确定自己GPU 安装的 CUDA 版本(运行时的版本),使用 nvcc -V (或 nvcc --version)使用 nvidia-smi 看到的是 CUDA 为驱动API版本,和运行时的版本不同,这个需要注意。

用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。nvidia-smi就属于这一类API。
用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。一般后续安装各种包或库,需要此类CUDA编译,所以我们后来需要安装和这个版本对应的 cudatoolkit 版本。
在这里插入图片描述

下面是安装包或库,这个需要在 你刚才创建的那个虚拟环境下进行安装

1.4 安装 PyTorch==1.7.1 and torchvision==0.8.2 with CUDA==10.1:,这里的CUDA 和上面的运行时 API 一样。

conda install pytorch==1.7.1 torchvision==0.8.2 cudatoolkit=10.1 -c pytorch

1.5 安装 timm 包

pip install timm==0.3.2

PyTorch Image Models (timm)是一个图像模型(models)、层(layers)、实用程序(utilities)、优化器(optimizers)、调度器(schedulers)、数据加载/增强(data-loaders / augmentations)和参考训练/验证脚本(reference training / validation scripts)的集合,目的是将各种SOTA模型组合在一起,从而能够重现ImageNet的训练结果

1.6 安装 apex
官方安装语句,但是有时候 git 会因为网络问题,不能下载,且在运行下面第三句话时 pip 时会出现问题。所以我们尽量介绍另外的安装策略。

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

如果上面的 git 命令无法下载,则采用下面的策略:
在这里插入图片描述
解压下载的文件后,进那个 apex 文件夹就行
在这里插入图片描述
下面说下,我安装过程中出现的问题有:
1) 当然如果您上面的 cudatoolkit 版本没安装正确,同样也会报一个 mismatch 的错误,所以以上的安装一定要安装对版本。
2)同样如果直接运行第三句命令,还会报一个,apex 文件夹中没有 setup.py 文件等,此时注意到,上面的图中,在apex 文件夹外就有个 setup.py 把那个文件直接复制进 apex 文件夹,再次运行上面的 第三条命令,看看能不能顺利执行,如果最终成功了,恭喜您,如果没成功,不要着急,我还有另外的安装方式。

如果上文的命令不行,请使用下面的命令:
1 在 apex 文件夹中运行 python setup.py install
2 然后运行 python setup.py build 即可,然后编译为我后面截图那个文件夹,
3 把那个apex 复制到swin-tranformer 的代码目录,即可。
如果还不行, 可以直接使用 pip install apex 试试

在这里插入图片描述
这个是我编译好的apex 文件夹情况,
在这里插入图片描述
编译好的 apex 直接复制到 swin-transformer 文件夹
在这里插入图片描述
1.7 安装一些其他包:

pip install opencv-python==4.4.0.46 termcolor==1.1.0 yacs==0.1.8

以上就是环境配置,如果配置完全,即可进行下面的步骤了。

2 数据准备

数据集处理成 imagenet 的格式,即每个类别放在一个文件夹,最好是类名直接命名为数字形式,也可以是真是类标,然后将 训练集 验证集 测试集 分文件夹存储,每个文件夹的格式就像下面的 样子。
在这里插入图片描述
在这里插入图片描述

代码更改

1 打开 config.py , 将数据集的文件夹写进去,这样到时候训练时候,就不用再写了。
2 修改类别的数量,因为默认是 1000类,
3 下载预训练模型,并在 config.py中配置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
使用百度云盘下载即可。
在这里插入图片描述
**加粗样式
**
还要改正几个地方,
1 build.py 中的 类别数数量
在这里插入图片描述
2 预训练模型加载过程中,由于自定义数据集类别未必是1000 所以需要改utils.py 中的这个函数,我这里是加了个判断,您也可以改为其他的形式。
在这里插入图片描述
3 测试时候,需要将 数据集改为 test 数据集,因为代码默认 为验证集,在 build.py 中
在这里插入图片描述

单块GPU训练和测试的命令

训练

python -m torch.distributed.launch --nproc_per_node 1 --master_port 12345  main.py \
--cfg configs/swin_tiny_patch4_window7_224.yaml  --batch-size 8 

测试

python -m torch.distributed.launch --nproc_per_node 1 --master_port 12345  main.py --eval\
--cfg configs/swin_tiny_patch4_window7_224.yaml --resume 训练模型路径 --batch-size 8 

【以上即为Swin-Transformer图像分类调试过程】
训练过程:
在这里插入图片描述

  • 3
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 33
    评论
Transformer发轫于NLP(自然语言处理),并跨界应用到CV(计算机视觉)领域。 Swin Transformer是基于Transformer的计算机视觉骨干网,在图像分类、目标检测、实例分割、语义分割等多项下游CV应用中取得了SOTA的性能。该项工作也获得了ICCV 2021顶会最佳论文奖。 本课程将手把手地教大家使用labelImg标注和使用Swin Transformer训练自己的数据集。  本课程将介绍Transformer及在CV领域的应用、Swin Transformer的原理。 课程以多目标检测(足球和梅西同时检测)为例进行Swin Transformer实战演示。 课程在Windows和Ubuntu系统上分别做项目演示。包括:安装软件环境、安装Pytorch、安装Swin-Transformer-Object-Detection、标注自己的数据集、准备自己的数据集(自动划分训练集和验证集)、数据集格式转换(Python脚本完成)、修改配置文件、训练自己的数据集、测试训练出的网络模型、性能统计、日志分析。  相关课程: 《Transformer原理与代码精讲(PyTorch)》https://edu.csdn.net/course/detail/36697《Transformer原理与代码精讲(TensorFlow)》https://edu.csdn.net/course/detail/36699《ViT(Vision Transformer)原理与代码精讲》https://edu.csdn.net/course/detail/36719《DETR原理与代码精讲》https://edu.csdn.net/course/detail/36768《Swin Transformer实战目标检测:训练自己的数据集》https://edu.csdn.net/course/detail/36585《Swin Transformer实战实例分割:训练自己的数据集》https://edu.csdn.net/course/detail/36586《Swin Transformer原理与代码精讲》 https://download.csdn.net/course/detail/37045
Swin-Transformer是一种新型的图像分类模型,它融合了transformer和局部窗口相互作用的思想,具有更高的计算效率和分类性能。在使用Swin-Transformer模型对自己的数据集进行训练时,一般需要进行以下几个步骤。 首先,需要准备好自己的数据集。这个数据集应包含图像和对应的类别标签。可以通过从网上下载公开数据集或者自己收集构建数据集。 接下来,需要对数据集进行预处理。首先,可以对图像进行尺寸的调整和归一化操作,确保输入的图像具有一致的尺寸和据范围。其次,可以对标签进行编码,将类别信息转换为模型可以理解的字形式。 然后,可以使用Swin-Transformer模型对数据集进行训练。在训练过程中,需要将数据集按照一定的比例分为训练集和验证集。训练集用于模型的参更新,而验证集用于调整模型的超参,以及评估模型的性能。 在每个训练迭代中,可以将一批图像输入到Swin-Transformer模型中,并计算模型的损失函。通过反向传播算法,可以更新模型的参,使得模型能够更好地拟合训练据。 训练完成后,可以使用训练好的Swin-Transformer模型对新的图像进行分类预测。只需将图像输入到模型中,即可得到图像所属的类别标签。 总之,使用Swin-Transformer模型对自己的数据集进行图像分类需要准备数据集、预处理据、划分训练集和验证集、进行训练和评估,并最终利用训练好的模型进行预测。这个过程需要仔细调整模型的超参和进行适当的据增强操作,以获得更好的分类性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 33
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值