在本工作中,作者提出了一种名为InsectMamba的新模型,用于昆虫害虫分类。该模型旨在融合状态空间模型、卷积神经网络、多头自注意力机制和多层感知器的优势。通过混合SSM块和选择性聚合模块整合这些不同的视觉编码策略,InsectMamba展示了应对害虫伪装和物种多样性挑战的能力。

害虫分类是农业技术中的关键任务,对于确保食品安全和环境可持续性至关重要。然而,由于害虫具有高度的伪装性和物种多样性等因素,害虫识别的复杂性构成了重大障碍。现有方法在提取区分密切相关的害虫种类的细微特征方面存在困难。尽管近期的研究通过修改网络结构和结合深度学习方法提高了准确性,但由于害虫与其周围环境的相似性,挑战依然存在。

为了解决这个问题,作者引入了InsectMamba,这是一种新颖的方法,它将状态空间模型(SSMs)、卷积神经网络(CNNs)、多头自注意力机制(MSA)和多层感知器(MLPs)整合到混合SSM块中。这种整合利用了每种编码策略的优势,促进了全面视觉特征的提取。同时,还提出了一个选择模块,以自适应地聚合这些特征,增强了模型辨别害虫特征的能力。

InsectMamba在五个害虫分类数据集上与强竞争者进行了评估。结果显示了其卓越的性能,并通过消融研究验证了每个模型组件的重要性。

1 Introduction

在农业生产中,由于害虫显著影响作物产量,农业技术中害虫的识别和分类对于确保食品安全和可持续性至关重要。害虫分类旨在利用视觉模型来自动识别害虫。这一任务对于维护作物健康,潜在减少农药使用,促进环境可持续的农业实践至关重要。此外,准确识别害虫有利于通过最小化损害和优化产量来管理作物。

由于害虫在其自然栖息地中常常表现出高度的伪装,这使得视觉识别变得困难。这一挑战也展示了害虫分类的复杂性。害虫与周围环境的相似性,加上物种的巨大多样性,给传统图像处理算法带来了重大障碍。此外,为了区分密切相关的害虫物种,需要细粒度的特征提取,这为这一挑战增加了另一层复杂性。最近的研究提出了利用改进的胶囊网络来改善网络结构,从而增强特征的分层次和空间关系,以提高分类准确性。此外,一些研究结合了多个深度网络和多重视角下的互补特征优势,以提高识别率和鲁棒性。然而,由于害虫与周围环境的相似性,这些方法仍面临挑战。

为了准确识别和分类在不同条件下害虫的挑战,不同的视觉编码策略提供了不同的优势。卷积神经网络擅长于局部特征提取,而多头自注意力机制则擅长捕捉全局特征。状态空间模型结构在识别长距离依赖方面特别有效,多层感知器专长于通道感知信息推理。

为了整合不同视觉编码策略的优势,作者提出了一种新颖的方法,InsectMamba,它由混合SSM块组成,整合了SSM、CNN、MSA和MLP,以提取更全面的视觉特征用于害虫分类。此外,作者提出了一种选择模块,以适应性地聚合来自不同编码策略的视觉特征。InsectMamba利用了这些视觉编码策略的互补能力,旨在使视觉模型在捕捉害虫的局部和全局特征方面发挥作用,从而解决伪装和物种多样性的关键挑战。

在实验中,作者在五个害虫分类数据集上评估了InsectMamba和其他强劲的竞争者。为了提高数据集的挑战性,作者重新分割了数据集。实验结果表明,InsectMamba优于其他方法,这证明了InsectMamba的有效性。此外,作者进行了消融研究,以验证InsectMamba中每个模块的重要性。此外,作者对模型设计进行了广泛的分析,以证明其有效性。

本研究的主要贡献如下:

  • 作者提出了InsectMamba,这是首次尝试在害虫分类中应用基于SSM的模型。
  • 作者提出了混合SSM块,它无缝整合了SSM、CNN、MSA和MLP。这种整合使InsectMamba能够捕捉到用于害虫分类的全面视觉特征。
  • 作者提出了一种选择聚合模块,旨在适应性地组合来自不同编码策略的视觉特征。该模块允许模型选择用于分类的相关特征。
  • 作者在五个害虫分类数据集上严格评估了InsectMamba,与现有模型相比,展示了其卓越的性能。

2 Related Work

Image Classification

计算机视觉技术的快速发展使其在各种领域得到广泛应用,包括人工智能安全、生成检测、生物医学和农业技术。特别地,图像分类作为计算机视觉中许多应用的基本技术,其目的是区分不同类别的图像。一些研究采用卷积神经网络(CNNs)进行图像分类,因为卷积层能够捕捉图像中的局部特征。例如,由五个卷积层和三个全连接层组成的AlexNet在图像分类性能上取得了巨大成功。VGG和ResNet分别通过增加原始网络的深度和整合跳跃连接来进一步提升模型的分类能力。

然而,CNNs在理解全局信息方面存在局限,并且在捕捉全局和长距离依赖时缺乏鲁棒性。Vision Transformer (ViT)利用多头自注意力(MSA)捕捉每个块的环境信息,从而增强了模型捕捉全局依赖的能力。此外,Swin Transformer采用了一种窗口化的自注意力机制和分层结构设计,这不仅保留了MSA的全局建模能力,还增强了局部特征的提取。此外,MLP-Mixer提出了一种基于纯MLP的架构,以捕捉不同的上下文关系并增强视觉表示。此外,VMamb 通过将新颖的序列状态空间(S4)模型与选择机制和扫描计算相结合,改进了视觉分类任务,这一模型被称为Mamba。

Insect Pest Classification

对于昆虫害虫分类任务,它可以帮助人们更好地了解害虫的种群动态和潜在危害,制定有效的害虫管理策略,这对于农业经济和环境科学非常重要。然而,与一般图像相比,昆虫害虫领域的特征差异可能非常微妙,背景更为复杂,这对分类模型提出了更高的要求,需要更准确地提取有效特征。针对这一挑战,一些研究改进了基于CNN的模型,以在复杂背景下捕捉害虫特征。

此外,Faster-PestNet使用MobileNet提取样本属性,并重新设计了改进的Faster-RCNN方法来识别作物害虫。Ung等人[33]提出了一个带有注意力机制的基于CNN的模型,以进一步关注图像中的昆虫;An等人[2]提出了一种特征融合网络,该网络合成来自不同主干模型的表示以增强昆虫图像分类;Anwar和Masood采用深度集成模型方法提高从图像中检测昆虫和害虫的准确性和鲁棒性。此外,Peng和Wang[27]在昆虫领域研究了ViT架构,并将CNNs和自注意力模型聚合起来,以进一步提高昆虫害虫分类的能力。

3 Preliminaries

第三部分预备知识的开头。

Convolutional Neural Networks

卷积神经网络由于其强大的图像特征提取能力,在计算机视觉中得到了广泛应用。它由一组固定大小的可学习参数组成,这些参数被称为滤波器,并通过滑动窗口在输入图像上连续执行卷积计算。

InsectMamba_卷积神经网络

Multi-Head Self-Attention

Vaswani等人提出了多头自注意力 (MSA) 机制,并被广泛应用于许多自然语言处理任务中。与卷积神经网络不同,MSA允许模型在生成输出表示时对不同的输入标记的重要性进行加权,使模型能够有效地捕捉序列中的全局依赖关系和上下文信息。最近,类似Transformer 的架构在

InsectMamba_卷积神经网络_02

在视觉任务中,MSA需要在大规模数据集上进行预训练,以弥补其在CNN中的归纳偏置不足,例如平移不变性和局部性。

Multi-Layer Perceptron

InsectMamba_人工智能_03

State Space Models

状态空间模型 (SSMs) 引入了一种新颖的跨扫描模块 (CSM),以提高方向敏感性和计算效率。SSMs在通过描述时间演化和观测生成的方程来模拟视觉系统动态方面至关重要。观测函数如下:

InsectMamba_数据集_04

4 InsectMamba

本节详细阐述了作者的InsectMamba模型架构,这是一种用于害虫分类的新颖视觉模型。InsectMamba的基础是Mix-SSM块,旨在融合来自各种视觉编码策略的特征。最后,作者引入了作者提出的选择性模块,它可以自适应地整合来自不同视觉编码策略的表示。

Overall Architecture

InsectMamba_卷积神经网络_05

Mix-SSM Block

混合SSM块由几个关键组件组成:选择性扫描模块(SSM),卷积层(Conv),多层感知机(MLP),多头自注意力机制(MSA)以及选择性模块。不同视觉编码策略的详细信息,即SSM、Conv、MLP和MSA,可以在第3节中找到。

InsectMamba_人工智能_06

选择性模块

InsectMamba_池化_07

5 Experiment

在实验中,作者评估了作者的InsectMamba模型在五个昆虫害虫分类数据集上的性能。作者将InsectMamba与几种最先进的模型进行了比较。作者还进行了一项消融研究,以探究InsectMamba中不同组件的有效性。

Dataset and Metrics

为了更有效和全面地评估现有的视觉模型,作者精心挑选并重新分割了五个昆虫害虫分类数据集,以提供一个具有挑战性的评估。作者实验中使用的数据集包括Farm Insects 1、Agricultural Pests 2、Insect Recognition、Forestry Pest Identification和IP102,详细信息如表1所示。

InsectMamba_卷积神经网络_08

作者将训练集中的样本数量减少,以比较不同视觉模型对视觉特征的编码能力。此外,作者采用准确率(ACC)、精确度(Prec)、召回率(Rec)和F1分数作为评估指标,全面评估模型的性能。

实现细节

InsectMamba_人工智能_09

Main Results

InsectMamba_数据集_10

如表2、3、4、5和6所示的实验结果表明,InsectMamba模型在多个昆虫分类任务中表现出卓越的性能。InsectMamba在所有评估指标上(准确率(ACC)、精确度(Prec)、召回率(Rec)和F1分数(F1))一致地超越了包括不同配置的ResNet、DeiT、Swin Transformer和Vmamba在内的现有基准模型。

InsectMamba_人工智能_11

在农场昆虫数据集上,InsectMamba达到了0.66的ACC,比次优模型Swin-B高出4%。在农业害虫数据集上,也观察到了显著的改进,InsectMamba达到了0.91的ACC,比强 Baseline 模型Vmamba-B高出2%。这些结果在昆虫识别和林业害虫识别数据集上保持一致,显示了InsectMamba在图像特征提取方面的强大能力。

InsectMamba_卷积神经网络_12

在IP102数据集上的结果进一步验证了InsectMamba的鲁棒性,达到了0.43的ACC,比Swin-B此前的最佳结果0.39有了显著提升。这些结果表明,Mix-SSM块能够整合多种视觉编码策略,确保从输入图像中全面捕捉特征。

InsectMamba_数据集_13

选择性模块进一步增强了模型的性能,通过自适应地加权不同编码策略的贡献。

InsectMamba_数据集_14

Ablation Study

消融研究的结果如表7所示,系统地评估了InsectMamba模型中每个组件的贡献,即卷积神经网络(CNN)、多层感知器(MLP)和多头自注意力(MSA)在三个数据集上的作用:农场昆虫、昆虫识别和IP102。结果显示每个组件在实现高准确度和F1分数方面的重要作用。完整的InsectMamba模型在所有数据集上均取得了最佳性能,这强调了结合CNN、MLP和MSA进行特征提取和表示学习的协同效应。

InsectMamba_卷积神经网络_15

移除任何单一组件(CNN、MSA或MLP)都会导致所有数据集上的准确度和F1分数下降,表明每个组件都为分类提供了独特且有价值的信息。当同时移除多个组件时,性能下降最为显著,特别是当CNN、MSA和MLP都被排除时。这种配置导致了最低的准确度和F1分数,证明了集成多种视觉编码策略对于捕捉昆虫的全面视觉特征至关重要。     

Analysis

特征聚合方法的影响。为了研究InsectMamba模型中不同特征聚合方法的有效性,作者通过将选择性模块与最大池化和平均池化方法进行比较来进行评估。

InsectMamba_人工智能_16

如图3所示,在两个不同数据集:农场昆虫和IP102上,选择性模块在准确率(ACC)和F1分数方面始终优于最大池化和平均池化方法。对于农场昆虫数据集,选择性模块获得了最高的ACC和F1分数,这表明在捕捉和整合对昆虫害虫分类的重要特征方面,它具有卓越的能力。特别是与最大池化相比,ACC和F1的提高是显著的,这突显了选择性模块在处理更加微妙的分类任务方面的有效性,这些任务来自于多样化的昆虫物种集合。在IP102数据集上,选择性模块仍然保持优势。此外,两个数据集上性能的差异性也突出了选择性模块的自适应性。它展示了选择性模块可以根据数据集的复杂性和多样性,动态调整对不同视觉编码策略的视觉特征的整合。

InsectMamba_人工智能_17

InsectMamba_人工智能_18

选择性模块中池化方法的影响。作者研究了InsectMamba模型中选择性模块中各种池化方法对性能的影响。具体来说,作者研究了平均池化、最大池化、L2池化和随机池化,以综合方程13中规定的全局特征。图5展示了在两个数据集(即农场昆虫和IP102)上的比较性能。

对于农场昆虫数据集,平均池化获得了最佳的准确率和F1分数,这表明它在保留分类任务的特征表示方面是有效的。此外,IP102数据集上的结果显示出一致的趋势。平均池化在农场昆虫数据集上的表现同样出色。

6 Conclusion

在本工作中,作者提出了一种名为InsectMamba的新模型,用于昆虫害虫分类。该模型旨在融合状态空间模型、卷积神经网络、多头自注意力机制和多层感知器的优势。通过混合SSM块和选择性聚合模块整合这些不同的视觉编码策略,InsectMamba展示了应对害虫伪装和物种多样性挑战的能力。

在实验中,作者对五种昆虫害虫分类数据集上进行了广泛的评估,比较了InsectMamba与其他强劲竞争对手。实验结果表明,InsectMamba性能优于其他模型,这证明了InsectMamba的有效性。作者还通过全面的消融研究揭示了每个集成模块的重要性。