基于深度残差学习的多重蝴蝶识别

摘  要:昆虫识别对分类学至关重要。它可以帮助研究人员处理大量和各种生态数据。大多数研究侧重于微调深度学习网络或改变算法以提高识别准确性,并且已经用这些方法生成了一些有用的工具。本研究主要研究图像数据对识别模型的影响。现有自动识别工具的单一数据集来源相对简单,目前发布的基于竞争的数据集只是侧重于评估模型。本文首次整合了来自多个来源的蝴蝶图像数据集、涵盖的插图书籍和流行的蝴蝶科学网站。图像类型包括标准标本图像、插图书扫描图像和相机镜头。此外,这些图像不仅包括固定姿势,还包括自然姿势的蝴蝶的各种其他图像。这些图像的大小也是多种多样的。测试数据集是不属于训练集的新数据,这也验证了模型的泛化性,表明该模型在实际应用中可以识别新图像。与之前的工作相比,这种测试方法是一个突破。本文先使用ResNet18 网络设计了不同的数据集来训练分类器,在分析结束时实现了 86% 的验证准确率,然后提出了模型LDResNet,取得了87.61%的平均识别准确率,进一步提高了识别精度。同时进一步分析了蝴蝶识别在科和属水平上的测试结果。LDResNet模型相较其他模型,在平均识别准确率和参数量方面均有明显优势,本研究模型可为自然环境下的蝴蝶种类自动识别提供技术支持。

关键词:模式识别;蝴蝶图像;数据集;ResNet18;LDResNet

Multiple butterfly recognition based on deep residual learning and image analysis

AbstractInsect identification is essential for taxonomy. It helps researchers process large amounts and various ecological data. Most research has focused on fine-tuning deep learning networks or changing algorithms to improve recognition accuracy, and some useful tools have been generated using these methods. This study mainly studies the influence of image data on the recognition model. Existing automated identification tools have a relatively simple source of single datasets, and currently published competition-based datasets focus only on evaluating models. This paper is the first to integrate a dataset of butterfly images from multiple sources, covered illustrated books, and popular butterfly science websites. Image types include standard specimen images, illustrated book scans, and camera lenses. In addition, these images include not only fixed poses, but also various other images of butterflies in natural poses. These images also come in a variety of sizes. The test dataset is new data that does not belong to the training set, which also verifies the generalization of the model, indicating that the model can recognize new images in practical applications. This test method is a breakthrough compared to previous work. In this paper, ResNet18 network is used to design different datasets to train the classifier, and the verification accuracy of 86% is achieved at the end of the analysis, and then the model LDResNet is proposed, which achieves an average recognition accuracy of 87.61%, which further improves the recognition accuracy. At the same time, the test results of butterfly identification at the family and genera levels were further analyzed. Compared with other models, LDResNet model has obvious advantages in average recognition accuracy and parameter quantity, and this research model can provide technical support for automatic identification of butterfly species in natural environment.

Key wordspattern recognition; Butterfly image; data set; ResNet18;LDResNet

近年来,蝴蝶自动识别受到了越来越多研究者的关注,出现了大量蝴蝶识别应用研究。蝴蝶识别是通过观察和分析蝴蝶的特征来确定其种类或种属的过程。这可以是人工识别,也可以是借助计算机视觉和机器学习技术的自动化识别。但是人工鉴别蝴蝶种类不仅需要长期的经验积累而且费时费力,严重影响了人类对蝴蝶的认识。

1 研究背景

借助人工智能技术进行自动识别已被广泛应用于物种分类,同时近年来识别技术取得了重大进展,研究人员以各种方式获得了收集数据集的权限。改变了传统的基于解剖学的识别方法,以及观察物种形态、生殖器差异等方面的差异。因此,研究人员采用更灵活的方法来集成和处理图像数据。物种图像识别是生物图像数据应用最成功的案例之一。分类学家和计算机科学家一起工作,多次尝试识别物种,开发实际应用。2020Image-Net竞赛在这一领域取得了突破。随后,产生了许多识别实验,例如鸟类识别、农业害虫检测系统、动物识别系统、鱼类检测系统、浮游动物检测系统、猴子面部识别系统、猪识别、和红外动物图像监测和识别系统等。还有一些已经在工业中用于解决现实世界的问题,例如,帮助没有分类学基础的人初步鉴定外来有害昆虫。而且研究Tephritidae的识别系统就是一个例子,现有的算法已经取得了良好的识别结果。 然而,这些系统仍然面临重大挑战。由于训练数据量非常大,标记这些图像很困难,大多数研究都集中在有限的群体或特定的应用上。算法科学家在自动标记方法方面取得了一些进展,此外部署复杂模型需要大型服务器和熟练的科学家来处理数据并根据需要调整模型参数或更改算法。自从专家系统在1980年代出现以来,它标志着人工智能的开始,硬件的发展,以及后来基于神经网络的分类器训练,研究人员不断尝试提高硬件的效率和计算能力。首先,计算机科学家提出了神经网络的算法。然后,利用数据处理逐步开发和建立计算机硬件;这一领域的进展仍在继续。一些方法在缺乏标记数据的情况下改进识别率,例如迁移学习和一次性学习,其中代表了处理训练数据不足的前沿研究。如果训练数据足以训练效率模型,则模型性能会增强。在这项研究中,我们收集了一百多个类别的蝴蝶图像,试图学习多种蝴蝶物种识别,并训练出具有较强泛化能力和广泛识别范围的分类器。同时,对每个测试图像进行分析。我们列出了可能的误判情况,首先努力识别和分析大量数据集之外的测试集。目前的大多数蝴蝶识别应用程序都用于识别成年蝴蝶图像,既针对标本,也涉及自然场景。近年来,基于图像处理技术的蝴蝶种类自动识别已成热点,对蝴蝶种类自动识别的应用研究也随之出现,Almryad等(2020)使用基于迁移学习的方法,对10种蝴蝶生态照进行识别,在VGGl6模型上取得了80%的准确率;Arzar等(2019)使用预训练好的GoogleNet模型,对120张亚洲常见的4种蝴蝶进行识别,并取得不错的效果;Zhao等(2019)基于Faster R-CNN,构建了蝴蝶自动识别系统,在蝴蝶生态照上识别mAP达到70.4%;Xie等(2021)针对数据集中类别数目极不平衡问题,提出了一种新的数据划分和扩充技术,并利用RetinaNet对处理后的蝴蝶图像进行识别,mAP达到79.7%。虽然以上基于深度学习的识别方法可以自动提取蝴蝶特征,但研究的蝴蝶数量较少且所用网络结构复杂、参数多,难以在移动设备中部署。

2 材料和方法

2.1 分类器算法

深度学习可以解决巨大的数据问题,使用高效的计算平台。深度神经网络模型近年来已经成熟,可以应用于工业生产,解决日常生活的问题,提供更大的便利,如人脸识别,应用于交通控制的安全系统和个体检测。 正如这项研究所证明的那样,具有更多网络层的深度学习模型会产生更好的学习结果。例如,Google-Net的识别精度高于Alex-Net然而,由于网络层很深,训练模型的难度也会增加。因此,对硬件的要求也随之增加。数据之间的相似类会导致梯度爆炸,使模型难以训练。为了解决这个问题,何凯明的团队提出了一个Res-Net模型,该模型可以训练更深的卷积网络,而不会出现梯度消失的问题。 这个想法是提出一个新的残差层,并将其拟合到残差映射,替换过去的堆叠映射。该算法在Image-Net上进行了测试,结果表明,这种网络易于优化,在增加深度的同时实现了精度的提高,从而产生了更好的网络。Res-Net是为了在训练模型时减少网络计算时间而制作的,它对识别精度的影响有限。随着 Res-Net 层在某种程度上变得更深,最终会导致性能下降。性能下降背后的原因是网络的几层使模型变得复杂,从而削弱了模型的能力。本研究旨在研究数据对模型的影响。因此,ResNet18非常适合评估这个问题。为提升蝴蝶种类识别网络性能,结合蝴蝶特征, 本研究提出一种基于轻量级可变形残差网络的蝴蝶 种类识别算法。该方法以ResNet-18网络为基础, 使用可变形卷积改变采样位置,使网络可以学习到 更加丰富的蝴蝶形态差异,进而对纹理信息进行有 效检测;为了使算法识别准确率进一步提高,在可变形卷积后加入卷积块注意力模块(convolutional block attention module,CBAM)来提高网络对蝴蝶纹 理、形状和大小信息的敏感度,增大蝴蝶特征权重,降低背景噪声干扰(黄世国等,2021),进而提升模型的鲁棒性;最后使用改进的深度可分离卷积降低模型参数量。从而构建轻量级可变形残差网络 (1ightweight-deformable ResNet,LDResNet)。实验结果表明,LDResNet对蝴蝶种类识别效果显著,平均识别准确率相比于基线方法更高,模型参数量更小。

2.2 数据集

本文构建的蝴蝶数据集不仅包括标准的蝴蝶标本照片,还包括自然生态环境中的蝴蝶照片。蝴蝶在其生态环境中的照片,简称生态照,如图1。来源于野外实地拍摄和蝴蝶爱好者捐赠。我们收集了11,692张图像,包括114种蝴蝶。此数据集包含标本图像和自然图像。我们使用了三种图像来源,一些图像是从昆虫网站(蝴蝶网站)下载的,一些是从比赛中收集的,而其余的则来自插图手册。插图手册包括一些扫描图像,我们将它们切成单独的蝴蝶,用拉丁名称与属和物种名称识别。这些图像的标签已经以其拉丁名称命名;因此,我们使用这些名称并将它们集成到同一个类中。所有标签都包含其拉丁名称,每个图像从一到尾随机命名;格式是带有排序号的拉丁名称。同一类别中的图像被放入一个文件夹中,然后拆分为训练:验证以73的比例测试数据集。蝴蝶本身的拟态性为生态照片中蝴蝶的检测和识别带来巨大挑战。为了识别生态照片中的蝴蝶种类,需要完成照片中蝴蝶的定位问题,以及在此基础上的蝴蝶种类自动分类识别问题。本研究不仅克服了现有蝴蝶自动识别研究只依据蝴蝶标本照片进行蝴蝶种类识别的局限;同时提供了一个真正意义上的蝴蝶自动识别系统,实现了对包括任意姿态、任意大小蝴蝶的蝴蝶生态环境中 照片的蝴蝶位置自动检测与种类自动识别;还提供了一个供研究者们使用的目前种类最齐全的包含蝴蝶生态照片的蝴蝶图像数据集,且该数据集的蝴蝶生态照片还可以随时间推移,继续积累和完善。

图1 自然生态蝴蝶部分样本

Fig.1 Nature ecological butterfly part sample

蝴蝶生态照片的统计数据如图2所示,大部分种类蝴蝶的样本个数在13以内,每种蝴蝶至少有1个样本,最多包含61个样本,呈现典型的长尾分布。

图2 蝴蝶生态图片数据分布

Fig.2 Butterfly ecological picture data distribution

每张照片都对应一个PASCAL VOC 2007 格式的xml标注文件,文件中包含对应的图片名、图 片大小、蝴蝶种类和蝴蝶位置信息。其中蝴蝶分类精确到种,蝴蝶的位置由矩形框标出,在标注文件中记录矩形框的对角位置信息。同时,每张照片对应一张png格式的掩模图片,可用于提取蝴蝶精确位置区域为图像分割等算法评价研究提供支持。

我们对所有生态照的蝴蝶位置进行人工标注,模式照的蝴蝶位置默认为全图大小。由于深度学习需要大量训练数据,因此对训练数据集样本采用翻转、旋转、加噪、模糊、对比度升降等9种方式进行变换,以扩充训练数据集的蝴蝶图像数量。训练集样本同时包含生态照和模式照。所有生态照在去掉只有一个样本的蝴蝶种类后划分训练集和测试集。我们的目标是对生态照中的蝴蝶同时进行定位和分类。因此,测试集包含蝴蝶生态照片,我们希望借助模式照的一些信息预测生态照的蝴蝶类别,模式照也加入训练集,模式照加入训练集的方式分2种:1)将所有模式照都加入训练集,这样做是考虑到蝴蝶全集可有助于更好地提取蝴蝶间的共有特征信息,另外还可提高数据的扩展性,提供包含所有蝴蝶种类的预训练版本,如果有新 数据增加,可以在这个版本上继续进行增强训练;2) 只加入与生态照种类对应的模式照,这是更为通用的方法,只对要分类的蝴蝶进行训练,减小模型复杂度,提高分类精度.如2.1节所述,生态照在去掉只有一个样本的蝴蝶种类后,包含94种蝴蝶、1408张蝴蝶生态照片。按照训练集和测试集各50%的比例划分生态照,测试集包含687张生态照,其余721张生态照片加入训练集。我们按照第1种构造训练集的方法,将所有模式照片加入训练集,再对训练集所有样本进行扩充,最终得到训练集的蝴蝶图像为49910张,我们称之为Data-1。按照第2种生成训练集的方式,训练集只加人生态照蝴蝶种类对应的蝴蝶模式照,得到的蝴蝶训练数据集包括13060张图像,命名为Data-2。至此,我们将蝴蝶自动识别问题转化为一个94类的多类目标自动检测和识别问题。与普通的多类目标检测和识别问题相比,我们的蝴蝶自动检测与识别问题的难点不仅在于类别多,更重要的是我们要进行的是相同大类(蝴蝶)下的小类(不同种类蝴蝶)识别,或称为细粒度分类,因此本文的蝴蝶自动识别研究更具有挑战性。

2.3 四类训练验证数据集

为了比较数据如何影响结果,我们设计了四个训练集来确定关于泛化能力的最佳模型。第一个数据集由插图手册扫描图像组成,仅包含2843张图像。第二个数据集包含从上述所有来源收集的所有照片。对于第三个数据集,我们执行了一个去除图像上的水印或徽标的过程,第四个数据集是手工裁剪以排除大部分背景,只将目标蝴蝶留在中心,几乎占据了整个图像。在这些数据集中,大约有8584张自然图像和2494张标本图像。蝴蝶标本图像和自然图像的代表性图像如下图3 ABCEG代表插图书中的扫描图像;DFH代表自然图像。BFGH表示预处理后的图像。

图3 蝴蝶标本图像和自然图像的代表性图像

Fig.3 Representative images of butterfly specimen images and nature images

3 蝴蝶种类识别模型的构建

3.1 Res-Net网络

残差网络:分析蝴蝶颜色、纹理和形状可知, 同一属下的蝴蝶种类具有一定的相似性(周文进 等,2022),识别难度较大。Res-Net网络提出残差结构,在增加网络深度的同时,提升对蝴蝶特征的提取能力,在分类任务上广泛运用。 Res-Net网络由一系列残差块组成(黄林生等,2021),该结构中使用短连接,当输入量为x时,经过权重层后得到的残差映射为F(x),输出为H(x)= F(x)+x,则F(x)=H(x)-x。网络学习的是输入与输出的差值,解决了因网络层数增加而出现梯度消失和爆炸的问题。考虑到本研究数据集较小,不需要过多的网络层,且后期模型需要部署到移动设备,故选择ResNet18作为基础模型。图4是ResNet18残差网络结构图。

图4 ResNet18残差网络结构图

Fig.4 ResNet18 residual network structure diagram

3.2 可变形卷积

可变形卷积:在数据集拍摄过程中,受到成像视角、距离和光照等因素的影响,使图像中蝴蝶大小和形状多变。ResNet18网络中使用3×3普通卷积,采样点排列非常规则,只能对输入特征图的固定位置进行采样,处理几何形变问题能力有限,很难与蝴蝶复杂的外形匹配,导致原网络采样到的蝴蝶信息中包含较多背景噪声,影响蝴蝶种类识别。因此本研究使用可变形卷积(deformable convolution,DC)替换ResNet18特征提取层第3和4个残差结构中的普通卷积,其余模块保持不变。可变形卷积在每个卷积核(kernel)的采样点上添加了一个偏移量(张善文等,2021),使采样点排列变得不规则,有效改变了感受野的范围,使网络对不同形状、不同大小的蝴蝶有很好的自适应能力,对较大的蝴蝶可有效覆盖,对较小的蝴蝶能集中在其周围,使网络更加关注蝴蝶所在区域信息,进而提取到更加丰富的蝴蝶特征。当使用3×3的卷积时,在普通卷积中,对输出特征图上的任意一点P0,用卷积核w对网格尺(R={(-l,-1),(-l,0),…, (0,1),(1,1)})中的采样点进行加权计算,用公式表示为:

    (1)

对可变形卷积,因其中引入了偏移量\Delta P_n,使得采样点排列变得不规则,公式变为:

 (2)

式(2)中\Delta P_n为采样点的偏移量。

3.3 注意力机制

同一属蝴蝶在颜色、纹理和形状等方面相似,且具有拟态性,给种类识别带来极大 困难。本研究通过添加卷积块注意力模块(CBAM),使模型更加关注蝴蝶本身信息, 增强网络特征提取能力。CBAM注意力由通道注意力和空间注意力组成(李颀等,2022),本研究在可变形卷积后加入CBAM注意力机制,特征图依次通过通道注意力和空间注意力处理,学习每个特征通道和空间的重要程度。通过该方式使模型关注蝴蝶所在区域信息,增强颜色和纹理信息的权重,降低背景噪声干扰,从而提高模型识别能力。且CBAM属于轻量级模块,嵌入ResNet18模型后既能提高蝴蝶识别准确率,又不会增加过多的网络参数。

3.4 PolyLoss-Focal Loss损失函数

在蝴蝶种类识别中,不同种类蝴蝶在数量上分布极不平衡,其中旖凤蝶数量最多,接近200张,而宽尾凤蝶数量最少,只有43张。蝴蝶种类的不平衡会对模型识别率产生较大影响,对数量多的种类,网络能提取到更加丰富的特征,识别效果更好,而对数量少的种类,网络难以提取到较好特征,使得模型对该类蝴蝶识别率低。为解决这个问题,本研究使用PolyLoss-Focal Loss损失函数,该函数在焦点损失函数Focal Loss基础上,通过泰勒展开成多项式函数,展开形式如式(3)所示。焦点损失函数需要试验多次才能找出与数据集匹配的可调参数\alpha\delta,PolyLoss-Focal Loss仅需调整第1个多项式系数,使网络更加关注数量较少的蝴蝶种类,从而提升蝴蝶种类识别率。

(3)

式中\alpha _{j }表示多项式损失权重,P_{t}表示目标标签预测概率。

3.4 整体模型的构建

本研究提出的深度学习网络模型以ResNet18为基础,引入可变形卷积和注意力机制,提取蝴蝶细粒度特征,提出改进的深度可分离卷积使模型易于部署,整体模型架构如图5所示。由图5知,整体模型架构由特征提取网络 (feature extraction network)和全局平均池化(globe average pooling,GAP)组成,使用ID_{sc}替换Convl-2 普通卷积;DC和ID_{sc}替换Conv3_4普通卷积;并在 Conv3-4的ID_{sc}后引入CBAM,由此获得特征融合后的特征图,再送入全局平均池化层。其中Conv:卷积convolution;Dc:可变形卷积Deformable convolution;ID_{sc}:改进的深度可分离卷积Improved depth-separable convolution;CBAM 卷积块注意力模块convolution block attention module;GAP:全局平均池化Global average pooling。

图5 LDResNet模型的整体结构

Fig.5 0verall structure of the LDResNet model

4 评价指标

对于分类问题,常用的评价标准包括准确率 (accuracy)、精确率(precision)、召回率(recall)和F1值(F1-score)等,本研究主要考虑蝴蝶种类识别准确率和后期模型部署到移动端等问题,故使用平均识别准确率、F1值和模型参数量(parameters)作为评价标准。

4.1 平均识别准确率(average recognition accuracy,Arc)

平均识别准确率(average recognition accuracy,Arc)指的是验证集分类正确的样本与验证集总样本数之比,计算方法如式(4)所示:

(4)

式中:N为数据类别总数,本研究中N=25;

Y_{i}为第i类的数量;X_{i}为第i类中分类正确数量。

4.2 F1值

F1值是精确率和召回率的调和平均值,针对精准率和召回率有时会出现矛盾的情况,本研究使用F1值进行综合考虑。计算公式如式(5)所示,通常F1值越高,代表模型的分类效果越好。

                  (5)

式中P为精确率,其计算公式为:p=\tfrac{TP}{TP+FP};R为召回率,计算公式为:P=\tfrac{TP}{TP+FN}。TP表示预测类别为正,实际类别也为正的样本数;FP表示预测类别为正.实际类别为负的样本数:FN表示预测类别为负、实际类别为正的样本数。

4.3 模型参数量

模型大小能够用模型参数量表示,因模型参数较大,一般用单位MB来衡量,网络参数量主要包含卷积层和全连接层的参数量。参数量越小,代表模型越轻量化,越容易在移动设备部署。

5 结果

5.1 以ResNet18残差网络为基础的消融实验

实验模型的训练与验证均在同一平台上进行。综合考虑实验设备的性能和训练效果,将批量大小(batch size)设置为16, 迭代次数(epoch)设置为200,使用随机梯度下降算法(stochastic gradient descent,SCD)作为损失函数优化器,初始学习率设置为0.01,学习率随着训练轮次变化,每20轮次衰减0.5。将可变形卷积、CBAM和PolyLoss—Focal Loss模块加入ResNet18网络,以探讨它们对网络性能的影响。其中前3组实验的损失函数均使用交叉熵损失函数(CrossEntropyLoss),第4组实验将CrossEntropyLoss函数替换为PolyLoss-Focal Loss函数。引入可变形卷积替换最后两个残差块的普通卷积后,模型识别准确率较基准模型提升2.21%,表明引入可变形卷积后模型感受野增大,能有效提取蝴蝶特征信息。同时引入可变形卷积和CBAM模块,模型识别准确率较单独引入可变形卷积高,说明CBAM注意力模块增加了蝴蝶信息权重,降低了冗余信息的干扰,网络提取蝴蝶特征能力更强。最后使用PolyLoss-Focal Loss替换 CrossEntropyLoss解决数据分布不平衡问题,结果表明,使用PolyLoss—Focal Loss损失函数后,模型识别准确率进一步提高。

同时,我们使用训练准确性评估了模型。图6显示了模型训练过程中的精度变化曲线,这些模型提供了很好的契合度并产生了不错的识别度。随后,我们使用新颖的测试数据集来评估这四个模型并比较它们的测试结果。我们得出的结论是,模型4是在最短时间内执行拟合的最佳模型。

图6 四种模型的识别精度和损失曲线

Fig.6 Recognition accuracy and loss curves of four models

5.2 模型的结果可视化分析

ResNet-18模型与LDResNet模型验证集识别准确率和验证集损失值的曲线如图4所示,其中红线代表ResNet-18模型,绿线代表LDResNet模型。由图7可知,与ResNet-18模型相比,本研究建立的模型在验证集上验证所得识别率更高,损失值更小。

图7 ResNet-18与LDResNet模型验证集识别准确率(A)和损失值(B)

Fig.7 Recognition accuracy(A)and loss value(B) of the validation set of ResNet-18 and LDResNet models

LDResNet模型在蝴蝶数据集上得出的混淆矩阵如图8所示,其横坐标为真实标签,纵坐标为预测标签,主对角线上数字为预测正确的样本数,其余均为预测错误的样本数。其中,A:宽尾凤蝶;B:曙风蝶;C:瓦曙凤蝶;D:白斑麝凤蝶;E:多姿麝凤蝶;F:小黑斑凤蝶;G:统帅凤蝶;H:宽带青凤蝶;I:青凤蝶;J:旖凤蝶;K:燕凤蝶;L:绿带燕凤蝶;M:锤尾凤蝶;N:钩凤蝶;O:褐钩凤蝶;P:红珠凤蝶;Q:红基美凤蝶;R:窄斑翠风蝶;S:碧凤蝶;T:达摩凤蝶;U:金凤蝶;V:美凤蝶;W:巴黎翠凤蝶;X:玉带凤蝶;Y:绿凤蝶。

由图8可知,因白斑麝凤蝶和多姿麝凤蝶两者间的差异很小,在识别过程中发生了混淆;同理,绿带燕凤蝶和燕凤蝶、巴黎翠凤蝶和窄斑翠凤蝶也发生了混淆。在后续研究中,首先,考虑增加样本数目,其次通过提升网络深度来增强模型特征提取能力。

图8 LDResNet模型在验证集上的混淆矩阵

Fig.8 Confusion matrix of LDResNet model on the validation set

为更好地将识别结果可视化,本研究用验证集中4种蝴蝶图像生成了热力图,该热力图在经过最后一个CBAM注意力块后得到,实验结果如图9所示。由图9可知,与ResNet18模型相比,LDResNet 模型还关注到了曙凤蝶的纹理信息和多姿麝凤蝶的颜色信息;同时,LDResNet模型对统帅青凤蝶和玉带凤蝶本身信息也更加关注,由此,本研究模型对蝴蝶种类识别效果更好。

5.3 结论

针对自然环境中蝴蝶种类识别存在的问题,本研究提出一种内嵌注意力机制的轻量化可变形蝴蝶种类识别模型。实验结果表明,可变形卷积能够考虑蝴蝶图像的形状和大小,从而提取到各类蝴蝶图像的分类特征,提高了网络对蝴蝶种类识别的准确率;CBAM注意力机制可以使网络更加关注蝴蝶本身信息,减少背景噪声干扰;IDsc能大幅度减少网络参数量,使模型变得轻量化。在与其他主流分类网络对比时,本研究提出的模型具有更高的识别准确率和更小的模型参数量,对凤蝶科下25类蝴蝶平均识别准确率达到87.61%,模型参数量仅1.04 MB 。为模型部署于移动设备上提供了新的方法。在未来的研究中,我们会扩充蝴蝶数据集,并寻找新的改进算法,提高模型的泛化能力。

图9 ResNet18与LDResNet模型可视化结果对比

Fig.9 Visual result comparison of ResNetl8 and LDResNet models

参考文献

  1. 谢娟英,侯琦,史颖欢,等. 蝴蝶种类自动识别研究[J]. 计算机研究与发展,2018,55(8):1609-1618.
  2. 李飞,赵凯旋,严春雨,等. 基于残差网络的自然环境下蝴蝶种类识别[J]. 昆虫学报,2023,66(3):409-418.
  3. 张大千. 基于改进Faster R-CNN的蝴蝶种类自动识别[D]. 广东:暨南大学,2019.
  4. Ando M, Nakatsuka S, Aizawa H, et al. Recognition of wildlife using deep learning in images taken by camera traps[J]. Honyutuikagaku(Mammalian Science), 2019, 59(1): 49-60.
  5. Booth C L. Evolutionary significance of ontogenetic colour change in animals[J]. Biological Journal of the Linnean Society, 1990, 40(2): 125-163.
  6. CHEN, CHEN, ZHU, WEIXING, OCZAK, MACIEJ, et al. A computer vision approach for recognition of the engagement of pigs with different enrichment objects[J]. Computers and Electronics in Agriculture,2020,175.
  7. XI, TIANYU, WANG, JIANGNING, HAN, YAN, et al. Multiple butterfly recognition based on deep residual learning and image analysis[J]. 2022,52(1):44-53.
  8. 李飞,严春雨. 融合多尺度和迁移学习的蝴蝶种类识别[J]. 软件工程与应用,2022,11(4):769-778.
  9. SHIRKE, SWATI D., RAJA BHUSHNAM, C.. Optimization driven deep belief network using chronological monarch butterfly optimization for iris recognition at-a-distance[J]. International journal of knowledge-based and intelligent engineering systems,2022,26(1):17-35.
  • 36
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

伺服驱动小马达~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值