深度学习入门(四十一)计算机视觉——微调

前言

核心内容来自博客链接1博客连接2希望大家多多支持作者
本文记录用,防止遗忘

计算机视觉——微调

课件

标注一个数据集很贵

在这里插入图片描述

样本数1.2M50K60K
类别数100010010

网络架构

一个神经网络一般可以分成两块
1、特征抽取将原始像素变成容易线性分割的特征
2、线性分类器来做分类
在这里插入图片描述

微调

在这里插入图片描述

微调中的权重初始化

在这里插入图片描述

训练

是一个目标数据集上的正常训练任务,但使用更强的正则化

  • 使用更小的学习率
  • 使用更少的数据迭代
  • 源数据集远复杂于目标数据,通常微调效果更好

    重用分类器权重

  • 源数据集可能也有目标数据中的部分标号
  • 可以使用预训练好模型分类器中对应标号对应的向量来做初始化
  • 固定一些层

    神经网络通常学习有层次的特征表示

  • 低层次的特征更加通用
  • 高层次的特征则更跟数据集相关
  • 可以固定底部一些层的参数,不参与更新
  • 更强的正则
  • 在这里插入图片描述

    总结

    1、微调通过使用在大数据上得到的预训练好的模型来初始化模型权重来完成提升精度2、预训练模型质量很重要
    3、微调通常速度更快、精度更高

    教材

    在前面的一些章节中,我们介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。 我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet,它有超过1000万的图像和1000类的物体。 然而,我们平常接触到的数据集的规模通常在这两者之间。

    假如我们想识别图片中不同类型的椅子,然后向用户推荐购买链接。 一种可能的方法是首先识别100把普通椅子,为每把椅子拍摄1000张不同角度的图像,然后在收集的图像数据集上训练一个分类模型。 尽管这个椅子数据集可能大于Fashion-MNIST数据集,但实例数量仍然不到ImageNet中的十分之一。 适合ImageNet的复杂模型可能会在这个椅子数据集上过拟合。 此外,由于训练样本数量有限,训练模型的准确性可能无法满足实际要求。

    为了解决上述问题,一个显而易见的解决方案是收集更多的数据。 但是,收集和标记数据可能需要大量的时间和金钱。 例如,为了收集ImageNet数据集,研究人员花费了数百万美元的研究资金。 尽管目前的数据收集成本已大幅降低,但这一成本仍不能忽视。

    另一种解决方案是应用迁移学习(transfer learning)将从源数据集学到的知识迁移到目标数据集。 例如,尽管ImageNet数据集中的大多数图像与椅子无关,但在此数据集上训练的模型可能会提取更通用的图像特征,这有助于识别边缘、纹理、形状和对象组合。 这些类似的特征也可能有效地识别椅子。

    1 步骤

    在本节中,我们将介绍迁移学习中的常见技巧:微调(fine-tuning)。如图所示,微调包括以下四个步骤:

    1、在源数据集(例如ImageNet数据集)上预训练神经网络模型,即源模型
    2、创建一个新的神经网络模型,即目标模型。这将复制源模型上的所有模型设计及其参数(输出层除外)。我们假定这些模型参数包含从源数据集中学到的知识,这些知识也将适用于目标数据集。我们还假设源模型的输出层与源数据集的标签密切相关;因此不在目标模型中使用该层。
    3、向目标模型添加输出层,其输出数是目标数据集中的类别数。然后随机初始化该层的模型参数。
    4、在目标数据集(如椅子数据集)上训练目标模型。输出层将从头开始进行训练,而所有其他层的参数将根据源模型的参数进行微调。
    在这里插入图片描述
    当目标数据集比源数据集小得多时,微调有助于提高模型的泛化能力。

    2 热狗识别

    让我们通过具体案例演示微调:热狗识别。 我们将在一个小型数据集上微调ResNet模型。该模型已在ImageNet数据集上进行了预训练。 这个小型数据集包含数千张包含热狗和不包含热狗的图像,我们将使用微调模型来识别图像中是否包含热狗。

    %matplotlib inline
    import os
    import torch
    import torchvision
    from torch import nn
    from d2l import torch as d2l
    
    2.1 获取数据集

    我们使用的热狗数据集来源于网络。 该数据集包含1400张热狗的“正类”图像,以及包含尽可能多的其他食物的“负类”图像。 含着两个类别的1000张图片用于训练,其余的则用于测试。

    解压下载的数据集,我们获得了两个文件夹hotdog/trainhotdog/test。 这两个文件夹都有hotdog(有热狗)和not-hotdog(无热狗)两个子文件夹, 子文件夹内都包含相应类的图像。

    d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip',
                             'fba480ffa8aa7e0febbb511d181409f899b9baa5')
    
    data_dir = d2l.download_extract('hotdog')
    

    我们创建两个实例来分别读取训练和测试数据集中的所有图像文件。

    train_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'))
    test_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'test'))
    

    下面显示了前8个正类样本图片和最后8张负类样本图片。 正如你所看到的,图像的大小和纵横比各有不同。

    hotdogs = [train_imgs[i][0] for i in range(8)]
    not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
    d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4);
    

    在这里插入图片描述

    注: 在使用预训练模型时,一定要和预训练时作同样的预处理。 如果你使用的是torchvisionmodels,那就要求: All pre-trained models expect input images normalized in the same way, i.e. mini-batches of 3-channel RGB images of shape (3 x H x W), where H and W are expected to be at least 224. The images have to be loaded in to a range of [0, 1] and then normalized using mean = [0.485, 0.456, 0.406] and std = [0.229, 0.224, 0.225]. 如果你使用的是pretrained-models.pytorch仓库,请务必阅读其README,其中说明了如何预处理。

    在训练期间,我们首先从图像中裁切随机大小和随机长宽比的区域,然后将该区域缩放为 224 × 224 224 \times 224 224×224输入图像。 在测试过程中,我们将图像的高度和宽度都缩放到256像素,然后裁剪中央 224 × 224 224 \times 224 224×224区域作为输入。 此外,对于RGB(红、绿和蓝)颜色通道,我们分别标准化每个通道。 具体而言,该通道的每个值减去该通道的平均值,然后将结果除以该通道的标准差。

    # 使用RGB通道的均值和标准差,以标准化每个通道
    normalize = torchvision.transforms.Normalize(
        [0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    
    train_augs = torchvision.transforms.Compose([
        torchvision.transforms.RandomResizedCrop(224),
        torchvision.transforms.RandomHorizontalFlip(),
        torchvision.transforms.ToTensor(),
        normalize])
    
    test_augs = torchvision.transforms.Compose([
        torchvision.transforms.Resize(256),
        torchvision.transforms.CenterCrop(224),
        torchvision.transforms.ToTensor(),
        normalize])
    
    2.2 定义和初始化模型

    我们使用在ImageNet数据集上预训练的ResNet-18作为源模型。 在这里,我们指定pretrained=True以自动下载预训练的模型参数。 如果你首次使用此模型,则需要连接互联网才能下载。

    pretrained_net = torchvision.models.resnet18(pretrained=True)
    

    预训练的源模型实例包含许多特征层和一个输出层fc。 此划分的主要目的是促进对除输出层以外所有层的模型参数进行微调。 下面给出了源模型的成员变量fc。

    pretrained_net.fc
    

    输出

    Linear(in_features=512, out_features=1000, bias=True)
    

    在ResNet的全局平均汇聚层后,全连接层转换为ImageNet数据集的1000个类输出。 之后,我们构建一个新的神经网络作为目标模型。 它的定义方式与预训练源模型的定义方式相同,只是最终层中的输出数量被设置为目标数据集中的类数(而不是1000个)。

    在下面的代码中,目标模型finetune_net中成员变量features的参数被初始化为源模型相应层的模型参数。 由于模型参数是在ImageNet数据集上预训练的,并且足够好,因此通常只需要较小的学习率即可微调这些参数。

    成员变量output的参数是随机初始化的,通常需要更高的学习率才能从头开始训练。 假设Trainer实例中的学习率为,我们将成员变量output中参数的学习率设置为 10 η 10\eta 10η

    finetune_net = torchvision.models.resnet18(pretrained=True)
    finetune_net.fc = nn.Linear(finetune_net.fc.in_features, 2)
    nn.init.xavier_uniform_(finetune_net.fc.weight);
    
    2.3 微调模型

    首先,我们定义了一个训练函数train_fine_tuning,该函数使用微调,因此可以多次调用。

    # 如果param_group=True,输出层中的模型参数将使用十倍的学习率
    def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5,
                          param_group=True):
        train_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
            os.path.join(data_dir, 'train'), transform=train_augs),
            batch_size=batch_size, shuffle=True)
        test_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
            os.path.join(data_dir, 'test'), transform=test_augs),
            batch_size=batch_size)
        devices = d2l.try_all_gpus()
        loss = nn.CrossEntropyLoss(reduction="none")
        if param_group:
            params_1x = [param for name, param in net.named_parameters()
                 if name not in ["fc.weight", "fc.bias"]]
            trainer = torch.optim.SGD([{'params': params_1x},
                                       {'params': net.fc.parameters(),
                                        'lr': learning_rate * 10}],
                                    lr=learning_rate, weight_decay=0.001)
        else:
            trainer = torch.optim.SGD(net.parameters(), lr=learning_rate,
                                      weight_decay=0.001)
        d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
                       devices)
    

    我们使用较小的学习率,通过微调预训练获得的模型参数。

    train_fine_tuning(finetune_net, 5e-5)
    

    输出:

    loss 0.198, train acc 0.928, test acc 0.916
    16.5 examples/sec on [device(type='cpu')]
    

    在这里插入图片描述

    为了进行比较,我们定义了一个相同的模型,但是将其所有模型参数初始化为随机值。 由于整个模型需要从头开始训练,因此我们需要使用更大的学习率。

    scratch_net = torchvision.models.resnet18()
    scratch_net.fc = nn.Linear(scratch_net.fc.in_features, 2)
    train_fine_tuning(scratch_net, 5e-4, param_group=False)
    

    输出:

    loss 0.390, train acc 0.828, test acc 0.826
    1610.3 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]
    

    在这里插入图片描述
    意料之中,微调模型往往表现更好,因为它的初始参数值更有效。

    3 小结

    1、迁移学习将从源数据集中学到的知识“迁移”到目标数据集,微调是迁移学习的常见技巧。
    2、除输出层外,目标模型从源模型中复制所有模型设计及其参数,并根据目标数据集对这些参数进行微调。但是,目标模型的输出层需要从头开始训练。
    3、通常,微调参数使用较小的学习率,而从头开始训练输出层可以使用更大的学习率。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
非常感谢您的提问,下面是搭建一个机器视觉的深度学习模型的步骤的详细描述: 1. 收集数据集:收集与问题相关的数据集,并对其进行清洗和处理,以便后续使用。例如,在进行图像分类的任务时,需要收集包含相应图像的数据集,并对图像进行预处理,如缩放、裁剪、旋转和翻转等。 2. 数据预处理:对数据进行必要的预处理,以便更好地应用于深度学习模型。例如,对图像数据进行归一化处理、增强对比度、随机裁剪、旋转和翻转等预处理。 3. 模型选择:选择适合机器视觉问题的深度学习模型,如卷积神经网络(CNN)、残差网络(ResNet)等。对于初学者,可以从预训练模型开始,然后进行微调,以便更好地适应特定的任务。 4. 模型搭建:根据选择的模型,构建深度学习模型的网络结构,并设置各层的参数和超参数。例如,在构建卷积神经网络时,需要确定卷积层、激活函数、池化层、全连接层等的数量和参数。 5. 模型编译:在搭建好模型后,需要对其进行编译。编译时需要指定损失函数、优化器和评估指标等。例如,对于图像分类任务,可以使用交叉熵损失函数和随机梯度下降优化器。 6. 模型训练:使用训练数据对模型进行训练,并进行参数调整和优化,以提高模型的准确性和泛化能力。在训练时需要设置许多参数,如批量大小、学习率和训练次数等。 7. 模型评估:对训练好的模型进行评估,检查其在测试集上的表现,并进行模型的调整和改进。例如,可以计算模型的准确率、召回率、精确率和F1值等指标,以评估模型的性能。 8. 模型应用:将训练好的模型应用到实际问题中,进行预测和分类等任务。例如,在进行图像分类时,可以使用训练好的模型对新的图像进行分类。 9. 可视化分析:对模型进行可视化分析,以便更好地理解模型的特性和性能。例如,可以使用TensorBoard等可视化工具进行模型可视化分析。 10. 部署模型:将训练好的模型部署到实际应用中。例如,在进行图像分类时,可以将训练好的模型部署到移动设备或物联网设备上,以便进行实时图像分类等任务。 以上就是搭建一个机器视觉的深度学习模型的详细步骤,希望能对您有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值