图像识别完整项目之Swin-Transformer，从获取关键词数据集到训练的完整过程

最新推荐文章于 2024-06-06 20:23:17 发布

置顶听风吹等浪起

最新推荐文章于 2024-06-06 20:23:17 发布

阅读量814

点赞数 2

分类专栏：图像分类文章标签： transformer 深度学习人工智能分类

本文链接：https://blog.csdn.net/qq_44886601/article/details/135016829

版权

图像分类专栏收录该内容

22 篇文章 3 订阅

订阅专栏

0. 前言

图像分类的大部分经典神经网络已经全部介绍完，并且已经作了测试

代码已经全部上传到资源，根据文章名或者关键词搜索即可

LeNet ：pytorch 搭建 LeNet 网络对 CIFAR-10 图片分类

AlexNet ： pytorch 搭建AlexNet 对花进行分类

Vgg ： pytorch 搭建 VGG 网络

GoogLeNet ： pytorch 搭建GoogLeNet

ResNet ： ResNet 训练CIFAR10数据集，并做图片分类

关于轻量级网络

MobileNet 系列：

ShuffleNet 系列：

V1 ： ShuffleNet V1 对花数据集训练
V2 ： ShuffleNet V2 迁移学习对花数据集训练

EfficientNet 系列：

V1 ：EfficientNet 分类花数据集
V2 ：EfficientNet V2

Swin-Transformer ：Swin-Transformer 在图像识别中的应用

本章将根据 Swin-Transformer 网络对图像分类ending，包括如何获取数据集，训练网络、预测图像等等。

本文从头实现对Marvel superhero 进行分类记录，项目下载在后面

代码尽量简单，小白均可运行，不需要定义复杂的变量

网络精度高，采用迁移学习

1. 项目目录

文件目录如下所示：

注：项目的文件夹和代码不可更改，要不然会报错，至于超参数的更改下面会介绍！！

inference 是预测的文件夹，将预测的图像放在该文件夹下，可以实现批预测

my_dataset_from_net 爬虫脚本，可以自动从网络上下载图片

run_results 网络训练之后生成的信息，包括类别json文件、loss和accuracy精度曲线、学习率衰减曲线、训练过程日志、已经训练集和测试集的混淆矩阵

weights 下面存放的是Swin-Transformer 的预训练权重

py 文件：

model Swin-Transformer 网络
predict 预测脚本
process_data 根据爬虫下载的图片，自动划分训练集和测试，并且提出损坏图像
train 训练部分
utils 工具函数

详细的可以参考README 文件

2. 获取数据集

当然最开始要配置好环境和requirements.txt 文件

获取数据集在 my_dataset_from_net 文件下，运行文件下的main.py 可以得到：

脚本会自动在该文件下生成download_images文件目录，然后会根据关键词生成子文件夹

批下载的话，可以新建txt文件，按照这样操作就行：

按照下面操作：

选中baidu API ，load file就是刚刚新建的txt文件

Max number per keywords 就是每个关键词下载的图像个数，Threads 最好设定小一点，否则可能会漏下载

下载过程如下：

下载完成如下：

3. 对下载的图像处理、划分训练集和测试集

代码是 process_data.py 文件，因为代码用中文可能报错，这里要将文件夹改成英文

该脚本会自动删除那些 PIL 打不开的文件

代码会自动将每个子文件夹下按照 0.2比例划分测试集

运行 process_data.py 结果如下：

代码会在主目录下生成数据

4. 开始训练

训练代码是 train.py 文件

4.1 超参数设定

超参数如下：

关于--freeze-layers，设定为True，只会训练MLP权重。False会训练全部网络

    parser = argparse.ArgumentParser()
    parser.add_argument('--epochs', type=int, default=100)
    parser.add_argument('--batch-size', type=int, default=32)
    parser.add_argument('--lr', type=float, default=0.0001)
    parser.add_argument('--lrf', type=float, default=0.1)
    parser.add_argument('--freeze-layers', type=bool, default=False)     # 是否冻结权重

至于分类的个数啊、对应标签json文件等等，这里使用 datasets.ImageFolder，代码会自动生成，不需要设定！！

只需要更改上面超参数就行！！