昇思25天学习打卡营第14天|应用实践之ResNet50图像分类

最新推荐文章于 2024-09-09 15:46:54 发布

_xiaowen_

最新推荐文章于 2024-09-09 15:46:54 发布

阅读量780

点赞数 27

文章标签：学习人工智能深度学习

本文链接：https://blog.csdn.net/m0_52501541/article/details/140253215

版权

基本介绍

今天的应用实践的模型与昨日一样，同样是ResNet模型，也是同样将其应用于计算机视觉中的图像分类任务，不过昨天的中心点放在迁移学习。而今天的实践要完整的体验从数据集准备，到模型搭建，再到模型从头训练和验证这一流程，所以会对ResNet模型进行简单介绍。

数据集准备

今日使用的数据集是CIFAR-10数据集，该数据集共有60000张32*32的彩色图像，分为10个类别，每类有6000张图，数据集一共有50000张训练图片和10000张评估图片，可直接下载。下载完毕后，使用mindspore.dataset.Cifar10Dataset接口来加载数据集，并进行图像增强，具体代码如下：（ps：和昨天的差不多）

def create_dataset_cifar10(dataset_dir, usage, resize, batch_size, workers):

    data_set = ds.Cifar10Dataset(dataset_dir=dataset_dir,
                                 usage=usage,
                                 num_parallel_workers=workers,
                                 shuffle=True)

    trans = []
    if usage == "train":
        trans += [
            vision.RandomCrop((32, 32), (4, 4, 4, 4)),
            vision.RandomHorizontalFlip(prob=0.5)
        ]

    trans += [
        vision.Resize(resize),
        vision.Rescale(1.0 / 255.0, 0.0),
        vision.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010]),
        vision.HWC2CHW()
    ]

    target_trans = transforms.TypeCast(mstype.int32)

    # 数据映射操作
    data_set = data_set.map(operations=trans,
                            input_columns='image',
                            num_parallel_workers=workers)

    data_set = data_set.map(operations=target_trans,
                            input_columns='label',
                            num_parallel_workers=workers)

    # 批量操作
    data_set = data_set.batch(batch_size)

    return data_set

到这里，数据集就准备好了

ResNet简介

残差网络结构(Residual Network)是ResNet网络的主要亮点，ResNet使用残差网络结构后可有效地减轻退化问题，实现更深的网络结构设计，提高网络的训练精度。残差网络结构图如下图所示，残差网络由两个分支构成：一个主分支，一个shortcuts（图中弧线表示）。主分支通过堆叠一系列的卷积操作得到，shotcuts从输入直接到输出，主分支输出的特征矩阵𝐹(𝑥)加上shortcuts输出的特征矩阵𝑥得到𝐹(𝑥)+𝑥，通过Relu激活函数后即为残差网络最后的输出

残差网络结构主要由两种，一种是Building Block（如下面的左图），适用于较浅的ResNet网络，如ResNet18和ResNet34；另一种是Bottleneck（如下面的右图），适用于层数较深的ResNet网络，如ResNet50、ResNet101和ResNet152

有了残差网络块就可以快速构建ResNet50，具体的网络结构如下：

对于每个残差网络块，以ResNet50网络中的conv2_x为例，其由3个Bottleneck结构堆叠而成，每个Bottleneck输入的channel为64，输出channel为256。

ResNet50网络共有5个卷积结构，一个平均池化层，一个全连接层，以CIFAR-10数据集为例：

conv1：输入图片大小为32×3232×32，输入channel为3。首先经过一个卷积核数量为64，卷积核大小为7×77×7，stride为2的卷积层；然后通过一个Batch Normalization层；最后通过Reul激活函数。该层输出feature map大小为16×1616×16，输出channel为64。
conv2_x：输入feature map大小为16×1616×16，输入channel为64。首先经过一个卷积核大小为3×33×3，stride为2的最大下采样池化操作；然后堆叠3个[1×1，64；3×3，64；1×1，256][1×1，64；3×3，64；1×1，256]结构的Bottleneck。该层输出feature map大小为8×88×8，输出channel为256。
conv3_x：输入feature map大小为8×88×8，输入channel为256。该层堆叠4个[1×1，128；3×3，128；1×1，512]结构的Bottleneck。该层输出feature map大小为4×44×4，输出channel为512。
conv4_x：输入feature map大小为4×44×4，输入channel为512。该层堆叠6个[1×1，256；3×3，256；1×1，1024]结构的Bottleneck。该层输出feature map大小为2×22×2，输出channel为1024。
conv5_x：输入feature map大小为2×22×2，输入channel为1024。该层堆叠3个[1×1，512；3×3，512；1×1，2048]结构的Bottleneck。该层输出feature map大小为1×11×1，输出channel为2048。
average pool & fc：输入channel为2048，输出channel为分类的类别数。

模型的代码与昨日一样，所以就不展示了

模型训练

今日的模型训练采用和昨天一样的预训练模型进行初始化，但不会固定网络参数。此外，由于预训练模型的类别是1000个类别，而数据集只有10个类别，所以无法直接将预训练参数加载到模型。不过可以采取折中方法，现加载预训练参数，加载完毕再将最后一层改为10个类别即可。具体代码如下：

# 定义ResNet50网络
network = resnet50(pretrained=True)

# 全连接层输入层的大小
in_channel = network.fc.in_channels
fc = nn.Dense(in_channels=in_channel, out_channels=10)
# 重置全连接层
network.fc = fc

# 设置学习率
num_epochs = 5
lr = nn.cosine_decay_lr(min_lr=0.00001, max_lr=0.001, total_step=step_size_train * num_epochs,
                        step_per_epoch=step_size_train, decay_epoch=num_epochs)
# 定义优化器和损失函数
opt = nn.Momentum(params=network.trainable_params(), learning_rate=lr, momentum=0.9)
loss_fn = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')


def forward_fn(inputs, targets):
    logits = network(inputs)
    loss = loss_fn(logits, targets)
    return loss


grad_fn = ms.value_and_grad(forward_fn, None, opt.parameters)


def train_step(inputs, targets):
    loss, grads = grad_fn(inputs, targets)
    opt(grads)
    return loss

# 创建迭代器
data_loader_train = dataset_train.create_tuple_iterator(num_epochs=num_epochs)
data_loader_val = dataset_val.create_tuple_iterator(num_epochs=num_epochs)


def train(data_loader, epoch):
    """模型训练"""
    losses = []
    network.set_train(True)

    for i, (images, labels) in enumerate(data_loader):
        loss = train_step(images, labels)
        if i % 100 == 0 or i == step_size_train - 1:
            print('Epoch: [%3d/%3d], Steps: [%3d/%3d], Train Loss: [%5.3f]' %
                  (epoch + 1, num_epochs, i + 1, step_size_train, loss))
        losses.append(loss)

    return sum(losses) / len(losses)

之后便可进行训练，训练轮次设为80才能基本收敛，由于80轮的训练时间较长，所以只训练5轮，训练代码如下：

# 开始循环训练
print("Start Training Loop ...")

for epoch in range(num_epochs):
    curr_loss = train(data_loader_train, epoch)
    curr_acc = evaluate(data_loader_val)

    print("-" * 50)
    print("Epoch: [%3d/%3d], Average Train Loss: [%5.3f], Accuracy: [%5.3f]" % (
        epoch+1, num_epochs, curr_loss, curr_acc
    ))
    print("-" * 50)

    # 保存当前预测准确率最高的模型
    if curr_acc > best_acc:
        best_acc = curr_acc
        ms.save_checkpoint(network, best_ckpt_path)

print("=" * 80)
print(f"End of validation the best Accuracy is: {best_acc: 5.3f}, "
      f"save the best ckpt file in {best_ckpt_path}", flush=True)

训练5轮的效果一般，准确率只达到73%左右

模型测试

训练完即可进行模型测试，测试结果如下：

由于训练轮次太少，效果不是特别好

Jupyter运行情况

_xiaowen_

关注

27
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
昇思25天学习打卡营第14天|应用实践之ResNet50图像分类

今天的应用实践的模型与昨日一样，同样是ResNet模型，也是同样将其应用于计算机视觉中的图像分类任务，不过昨天的中心点放在迁移学习。而今天的实践要完整的体验从数据集准备，到模型搭建，再到模型从头训练和验证这一流程，所以会对ResNet模型进行简单介绍。残差网络结构(Residual Network)是ResNet网络的主要亮点，ResNet使用残差网络结构后可有效地减轻退化问题，实现更深的网络结构设计，提高网络的训练精度。
复制链接

扫一扫