Few-shot Image Classification Algorithm Based on Multi-scale Attention and Residual Network

 摘要

目前的小样本图像分类算法不能充分提取特征,模型的泛化能力较弱,分类精度较低。针对这个问题,本文提出了一种基于关系网络的多尺度注意和残差连接的小样本图像分类算法。多尺度注意的引入可以提取更重要的图像特征,模型中的残差连接可以将浅层特征信息转移到深度,从而提高模型的泛化能力。与关系网络相比,我们的方法在 MiniImageNet 和 Omniglot 数据集上显着提高了我们方法的图像分类精度。实验结果表明,引入多尺度注意和残差连接可以有效提高小样本图像分类的准确性。

关键词:图像分类、算法、多尺度注意、残差网络

引言

在过去的几年里,由于大数据的发展,深度学习在许多领域都取得了不错的成就。然而,在现实中,由于隐私和安全和成本问题,存在许多数据缺陷。当数据量极其稀缺时,大数据驱动的模型将产生精度差、泛化能力不足、过拟合等问题。这些问题是由数据稀缺引起的。为了解决这些问题,Fewshot learning [1] 出现在历史时刻。小样本学习是一种具有有限监督数据的机器学习。人们可以通过引入先验知识或现有经验从少数现有样本中识别新类。受此启发,研究人员希望这种使用先验知识的能力也将应用于小样本学习。

目前,小样本学习的方法主要包括基于数据增强[2]、元学习[3]和迁移学习[4]的方法。在深度学习中,few-shot问题的本质是训练过程中监督样本太少,这使得网络难以拟合模型中大量的参数,导致模型精度低。Antoniou等人提出的数据增强生成对抗网络(DAGAN)。[5]可以为特定任务生成少量虚假样本。Mille等人提出了幻觉图像的方法,该方法通过为图像生成不同类型的变换,使小样本图像能够获得更多的类内差异。然而,当上述方法使用生成网络来增强数据时,由于先验知识的不完整,生成的数据与真实数据之间的差异会导致概念偏差,从而影响后续实验的准确性。因此,如何使用模型从数据本身充分挖掘所需的信息是解决小样本问题的关键。基于迁移学习的小样本学习方法使用贝叶斯框架将从先前学习类别获得的先验知识转移到新类别,其中使用方法的差异在于先验知识的表达。Bauer等人提出了深度学习概率模型(DLPM)。通过训练 CNN 模型,从 CNN 顶部的隐藏层的大量训练样本中提取特征表示,概率模型用于将 CNN 的 softmax 权重视为数据,并以原始贝叶斯方式调整权重K-shot 问题。将表征知识和分类器权重转移到小样本学习中。Choi等人提出了结构化集匹配网络(SSMN),利用样本之间的相关性进行域内或跨域迁移,针对草图图像和自然图像的小样本学习问题。然而,基于迁移学习的小样本学习是任务受限的,需要在应用于下一个任务之前进行微调。最后,基于元学习的小样本学习在各种学习任务上训练元学习器,以便在使用少量监督样本进行训练后快速解决新任务。Finn 等人提出的与模型无关的元学习 (MAML) 算法。是一种可以适应更多模型的元训练模式。Santoro 等人提出的记忆增强神经网络 (MANN)。基于神经图灵机,它使用记忆模块存储先验知识并学习少样本数据的存储和使用。然而,上述基于元学习的few-shot学习方法并没有解决元学习器构建过程中完全提取样本数据特征的问题

为了解决上述问题,本文提出了一种基于多尺度注意和残差网络的小样本图像分类模型。该模型可以提取不同尺度的样本信息,增强对重要特征的关注,具有良好的泛化能力。

相关工作

Few-shot Learning

小样本学习被用来解决深度学习中样本量不足的问题。小样本学习想要创建一个模型,该模型可以很好地利用先验知识,在学习旧知识的基础上,通过少量监督数据学习新知识。在建立模型后,使用一系列few-shot任务来训练模型,以便模型更快地推广到新的few-shot任务。这一系列任务称为 N -way K-shot 任务,由支持集 S 提供。支持集S包含N个样本类,每个样本类包含K个样例,通常小于20。这些任务的目的是对给定测试样本进行分类,即正确预测它属于哪个标签。

Meta-Learning

元学习方法通常用于解决小样本问题。提出了元学习来解决传统神经网络泛化性能不足的问题,对新型任务的适应性较差。在元学习过程中,元学习的训练和测试过程往往与人类掌握一些基本知识并能够快速学习和适应新任务的过程进行比较。例如,儿童可以通过某种动物的照片快速学习识别,这种使用先验知识快速泛化到只有少量监督信息样本的新任务在机器学习中是小样本学习。在监督方面,小样本学习属于元学习的类别。一般来说,学习如何学习是元学习的目标。受当前计算资源和算法能力的限制,元学习通常使用小样本学习和快速适应新任务作为入口点。因此,目前的研究大多使用小样本数据集的准确性作为实验测量标准。

Relation Network

基于度量的元学习方法。关系网络设计了一个元学习器,它可以学习如何在各种小样本分类任务训练后进行分类,并迅速推广到新的小样本分类任务。关系网络模型结构如图1所示。它包括嵌入模块和关系模块。嵌入模块生成查询和训练图像的特征,即迁移的特征空间。关系模块比较和判断这些特征是否属于同一类别,即迁移的测量。

在图 1 中,嵌入模块由四个卷积层和两个最大池化层组成,关系模块由两个卷积层和两个全连接层组成。嵌入模块和关系模块中所有卷积核的大小为3×3,卷积核数为64,关系模块中两个全连接层的神经元个数分别为8和1。

关系网络通过嵌入模块提取样本特征,通过关系模块计算样本特征之间的相似度,对小样本图像进行分类。

基于多尺度注意和残差网络的图像分类算法

该模型引入了多尺度注意力和残差模块,在关系网络的基础上构建了一个基于多尺度注意和残差网络的小样本图像分类模型,用于对小样本图像进行分类。

Multi-scale attention

在模型训练过程中,卷积神经网络逐层提取目标的特征。高级网络具有较大的感受野比和较强的全局表示能力,但分辨率较低。相反,低层网络具有较小的感受野、较多的局部信息和较高的特征图分辨率。因此,为了提取不同尺度的信息以丰富特征空间,本文引入了金字塔分割注意力(PSA)模块。SE Net是Jie等人提出的一种可以动态调整信道特征的网络,它可以使模型对更重要的信道特征信息进行评估。之后,每组通道的注意力权重被归一化并加权到它们对应的卷积组中。最后,将每组的卷积块连接起来并输出。通过这些操作,PSA模块集成了不同尺度的上下文信息,从而获得更好的像素级关注。PSA模块结构如图2所示。

在第一部分中,将输入的特征图沿通道方向分组,并划分为不同的组,然后使用不同大小的卷积核对每组的特征图进行并行卷积运算,以获得不同尺度的空间。

在第二部分中,通过SE权重模块获得每个分支的不同尺度特征图的通道注意力权重。SE模块的结构如图3所示。squeeze和excitation这两部分共同构成了它。squeeze通过使用全局平均池来获得全局信息,并将全局空间信息嵌入到信道描述符中。excitation使用由两个完全连接的层组成的瓶颈结构来为每个通道生成相应的权重值。

在第三部分,使用 softmax 函数重新校准从所有分支获得的 SE 权重,以获得包含所有空间位置和通道信息的注意权重。

在第四部分,将得到的多尺度注意力权重加权到相应的特征图中并拼接,得到具有更丰富、更精细的空间和通道特征信息的特征图作为输出。

残差网络

传统的卷积神经网络和全连接网络在信息传输过程中丢失了或多或少的信息,并伴随着梯度消失和梯度爆炸等问题。ResNet使用残差结构将特征信息传输到高级网络,简化了网络的学习难度,在不生成更多参数的情况下保护信息的完整性,有效解决上述问题。残差结构由快捷连接和前向神经网络组成。整个网络仍然可以进行端到端的反向传播训练。

基于多尺度注意和残差网络(MARN)的算法

本文改进了关系网络的嵌入模块和关系模块,如图 4 所示,(a) 是嵌入模块,(b) 是关系模块。

嵌入模块由公共卷积层和四个 PSA 模块组成。四个PSA模块的卷积核大小为3×3、5×5、7×7、9×9,前两个器PSA模块的卷积层包含128个过滤器,其他包含256个过滤。嵌入模块通过改变PSA模块的卷积步长来替换原始的最大池化层,即第一个和第三个PSA模块的卷积层步长为2。此外,还添加了两个剩余连接来解决网络退化、梯度消失和梯度爆炸等问题,同时加速网络收敛。

关系模块由两个 PSA 模块和两个全连接层组成。两个PSA模块的卷积核大小为1×1、3×3、5×5、7×7,卷积核数为256。关系模块的全连通层分别有32和1个神经元。此外,还添加了一个空间注意模块。拼接后的输入依次乘以第二个PSA模块的输出,平均池化层为1×1卷积核的卷积层和sigmoid激活函数,用于帮助网络聚焦于图像的重要部分,忽略不相关的信息。

实验及分析

数据集

作为 ImageNet 的一个子集,MiniImageNet 数据集有 60,000 张彩色图像,每张图像的大小为 84×84。它总共包含 100 个类别,每个类别有 600 张图像。数据集分为 16 种类型的验证集、20 种类型的测试集和 64 种类型的训练集。

Omniglot数据集包含 32460 张图像,由 1623 个不同的手写字符组成,每个字符都通过 Amazon 的 Mechanical Turk 在线绘制。数据集分为 1000 种类型的测试集、423 种类型的验证集和 1200 种类型的训练集。本文通过将图像旋转90°、180°和270°来扩展数据集。所有输入图像都调整为 28×28 的大小。

实验设置

我们遵循大多数小样本学习工作使用的标准设置。对于 MiniImagenet 数据集,训练任务设置为 5 way 1-shot 和 5-way 5-shot。每个训练集中5 way 1-shot 的查询集中有 15 张图像,每个训练集中 5 way 5-shot 的查询集中有 10 张图像。对于 Omniglot 数据集,训练任务设置为 20 way 1-shot 和 20 way 5-shot。每个训练集中 20 way 1-shot 的查询集中有 10 张图像,每个训练集中 20 way 5-shot 的查询集中有 5 张图像。

实验结果与分析

下表 I 和表 II 显示了 MiniImagenet 和 Omniglot 数据集上的实验结果。

从表 I 和表 II 中,与关系网络相比,MiniImagenet 和 Omniglot 数据集上 MARN 的分类准确率有所提高。这些结果表明,多尺度注意和残差连接可以有效提高关系网络的特征提取效率,提高分类精度。

总结

在本文中,我们提出了一种名为 MARN 的新算法,它基于关系网络。为了丰富特征空间,我们使用不同尺度的卷积核对图像进行特征提取。为了加速网络收敛,我们使用残差连接。我们的实验表明,多尺度注意力和残差连接的引入是有效的。在标准 MiniImageNet 数据集和 Omniglot 数据集上,与关系网络相比,本文提出的方法显着提高了图像分类的准确性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值