Ip102: a large-scale bench-mark dataset for insect pest recognition.

最新推荐文章于 2025-03-26 08:00:00 发布

DU-KE

最新推荐文章于 2025-03-26 08:00:00 发布

阅读量1.2w

点赞数 26

分类专栏： paper reading 农作物病虫害识别

本文链接：https://blog.csdn.net/qq_43723025/article/details/115900568

版权

paper reading 同时被 2 个专栏收录

4 篇文章

订阅专栏

农作物病虫害识别

4 篇文章

订阅专栏

论文下载地址：IP102论文
论文code和dataset：code和dataset
目前在GitHub上面已经找不到了。如果需要code和dataset的直接与论文作者联系比较好。
IP102是一个用于目标分类与检测任务的农作物病虫害数据集，它的主要特点有：

有一个层次分类系统
呈现一个自然的长尾分布（long-tailed distribution）
数据分布不平衡
害虫种类多、数量较大
类间差异小（特征相似）和类内差异大（病虫害生命周期中有很多个阶段）

摘要

害虫是影响农产品产量的主要因素之一。准确识别害虫有利于及时采取预防措施，避免经济损失。然而，用于视觉分类任务的现有数据集主要集中在共同的对象上，例如花和狗。这限制了强大的深度学习技术在特定领域如农业领域的应用。在本文中，我们收集了一个名为IP102的用于害虫识别的大规模数据集。具体来说，它包含了属于102个类别的75，000多幅图像，这些图像呈现出自然的长尾分布(long-tailed distribution)。此外，我们为大约19，000幅图像添加了用于对象检测的边界框。IP102有一个等级分类系统，主要影响一种特定农产品的害虫被归入同一高级类别。此外，我们在IP102数据集上进行了几个基线实验，包括手工和基于深度特征的分类方法。实验结果表明，该数据集存在类内方差和类间数据不平衡的问题。我们相信我们的IP102将有助于未来在害虫控制、细粒度视觉分类(FGVC)和不平衡学习领域的研究。

1. IP102数据集

1.1 数据收集与注释

数据收集与注释分为1）分类系统建立；2）图像采集；3）初步数据过滤；4）专业数据注释。

分类系统建立
IP102数据集有一个层次分类系统。它们呈现出如图4所示的分层结构。根据遭受虫害的作物，给每种虫害分配一个高级别类别(在下文中称为超类)。换句话说，每种害虫都是某个超类的一个下级类(在下文中表示为子类)。比如稻秆蛆这种害虫损害了水稻这种作物，水稻属于大田作物。因此，在IP102的分类系统中，稻秆蛆亚类具有水稻和大田作物的超类。
图像采集
利用互联网广泛收集数据，如：ImageNet、COCO等；
第一步，依靠常见的图像搜索引擎，包括Google、Flickr、Bing等，使用每个子类的英文名称和对应的同义词作为查询关键字，每个关键字只保留2000个结果；
第二步，从几个专业的农业和昆虫科学网站上搜索；
除了图像形式，还收集了包含害虫内容的视频剪辑，从视频剪辑中，我们以每秒5帧的速度捕捉图像。因此，为IP102数据集收集了300,000多幅候选图像。
初步数据过滤
我们组织了6名志愿者手动过滤候选图像。在数据过滤之前，他们接受三部分培训内容，即：1)农业专家对害虫的常识，2)IP102的分类系统，3)不同形式的害虫。例如，图2显示了四种形式的害虫，包括卵、幼虫、蛹和成虫。即使它们处于生命周期的不同阶段，但它们都会对农产品造成不同程度的损害。在初步数据过滤的过程中，志愿者删除不包含或包含一个以上虫害类别的图像，如图2所示。然后，我们将过滤后的图像格式转换为JPEG格式，并删除重复或损坏的图像。最后，我们有大约120，000个带有查询关键字弱标签的图像。超类的标签是根据IP102数据集的分类系统分配的。
专业数据注释
数据注释：第一阶段是独立注释，每个专家注释一个超类；第二阶段是协同注释，每个专家对每一个子类都进行注释，最后协同起来，若一个图像样本得到了5个或者5个以上的专家统一注释，那么这个图像就属于某个类别，否则将会被删除。

图像中害虫位置的检测可以帮助农业专家或用户更好地找到害虫具体的位置（特别是那些在图像中不明显的）。此外，现实世界的场景使识别害虫变得复杂，当目标害虫不显著时，杂乱的背景会误导分类器，图像中存在多个害虫样本需要分别识别。现场的害虫防治需要准确的害虫位置和每种害虫的种类。因此，有效的虫害检测可以通过空间信息的样本感知识别来缓解现实场景的复杂性。还可以去除不相关的背景特征来提高分类性能。考虑到标记包围框的难度和代价，我们从每类图像中随机选取部分图像组成目标检测任务的子集。专家按照Pascal VOC的格式标注害虫的包围框。

1.2 数据集分割

IP102数据集包含75，222幅图像和102类害虫。
在虫害的分类任务上：Train：Test：Validation=6:3:1（45095/22619/7508）
在虫害的位置检测任务上：Train：Test=15178:3798（共18983）
表1显示了不同级别的详细拆分：
在这里插入图片描述

1.3 数据集结构

IP102数据集具有层次结构，图4显示了它的详细分类。每一个子类根据害虫类主要危害的作物被赋予一个超级类。例如，五斑叶螨亚类(TC)有柑橘类的超类。8种作物(如水稻、玉米和小麦)进一步分为两个超级类别(即大田作物(FC)和经济作物(EC))。例如，柑橘属于超类经济作物。此外，表1显示了不同超类级别中子类的数量分布。

1.4 与其他数据集比较

在表2中，我们将IP102与几个与害虫识别任务相关的现有数据集进行了比较。与最大的数据集[23,43,2]相比，我们的数据集包含超过14倍的样本。在类多样性方面，最大的数据集只有40个类，最小的数据集只有8个类。然而，在现实生活中害虫的种类非常多，我们的IP102分为102类。考虑到每个类的平均样本数，IP102比那些比较的数据集至少多309张图像。除了统计上的区别，只有一半的数据集是可用的，只有[43]的规模比较大。由于这些限制，现有的大多数与害虫有关的数据集(如[40,44,7])很难应用到实际应用中。

在这里插入图片描述

1.5 问题与挑战

不同生命周期阶段的害虫对农产品的危害程度不同。因此，在数据收集和注释期间，我们会保留包含所有这些内容的图像。图2(a1-a4)显示IP102中不同类型的害虫，包括卵、幼虫、蛹和成虫。
对于分类模型来说，由于很难提取出判别特征，所以很难将它们分类到同一类别。除了生物的多样性之外，数据分布的不平衡也不容忽视。如图3所示，三个子图展示了提出的数据集在不同层次上的不平衡分布，其中(a)、(b)和©分别展示了102个子类、2个超类和8个超类的实例数分布。具体来说，根据IP102数据集的层次标签系统，将102个亚类按照害虫类主要受害作物分为8个超类，如水稻和玉米，按照受害作物类型分为2个超类，如大田作物和经济作物。不同层次的不平衡分布给不平衡的学习领域和层次标签的使用带来了挑战。
表一显示，IP102数据集具有较高的不平衡比（IR>9）不平衡的数据会导致分类模型学习对训练样本相对较多的类产生偏倚。
在这里插入图片描述

2. 实验评估

在图像识别中，特征的选择起着非常重要的作用。为了综合评估IP102数据集，我们首先分别利用手工特征和深度特征评估分类性能。随后，我们在IP102子集上评估了几个对象检测框架。

2.1 实验设置

SVM分类器是通过使用LIBLINAL[11]用one-vs-rest方案训练的。KNN分类器的近邻数设置为5。当训练深层网络时，我们通过Mini-Batch SGD优化器微调所有层，Mini-Batch为64。Learing-Rate初始化为0.01，每40个epoch下降0.1倍。重量衰减和动量参数分别设置为0.0005和0.9。为了避免过拟合，我们还采用了dropout[37]，设置为0.3。我们保持这些深度模型的基本架构不变，只将最后一个完全连接的层从1，000更改为我们旨在分类的类号。输入图像的大小固定为224 × 224。基于深度特征的实验是使用PyTorch [31]实现的，并在具有12 GB板载内存的NVIDIA Titan X GPU上执行。

2.2 评估指标

IP102的类分布不平衡。我们采用了几个综合指标进行分类，包括精度、召回率、f测度、G均值和MAUC。精度(表示为“Pre”)描述了分类器不将阴性样本标记为阳性的能力。召回率(记为Rec)表示找到一个特定类别的所有阳性样本的能力。f1将精确度和召回率结合起来作为一种折中。G均值(表示为GM)评估类敏感性，并指示多数类和少数类的平衡分类性能。微平均方案MAUC[15]被定义为曲线度量下的面积。对于对象检测的任务，我们利用平均精度(AP) (IoU=[.50:.05:.95])、AP.50(IoU=.50)和AP.75(IoU=.75)作为性能评估指标。IoU被定义为检测到的盒子和基本事实之间的交集。IoU阈值越大，检测难度越大。

2.3 手工制作特征的分类结果

表3显示了手工特征的分类性能。我们可以看到，与纹理(Gabor [29])特征相比，颜色(CH)特征在大多数评估指标上表现不佳。这表明，当害虫出现在野外时，纹理特征起着更重要的作用。如图1所示，大面积单调的背景颜色使得难以通过颜色特征来区分害虫。最好的手工特征与SURF [3]特征和SVM分类器一起勉强达到19.5%的精度。主要原因是这些手工特征既不能捕捉与害虫相关的综合信息，也不能消除真实环境中害虫图像中的噪声。此外，许多不同的害虫有相似的外观，但传统的手工特征不足以捕捉细微的差异。IP102和以前的小规模数据集[19，44]之间的较大精度差距也表明IP102表现出较高的识别难度。
在这里插入图片描述

2.4 深度特征的分类结果

所有网络都在ImageNet[6]上预先训练，然后在IP102数据集上进行微调。我们通过移除模型架构中的最后一层，从神经网络中提取深层特征。随后，我们利用这些深层特征来训练SVM和KNN分类器。表3显示了深层特征的分类性能。与其他三种模型相比，ResNet在大多数指标上表现最佳。因此，它可以更好地表示IP102的特征，即使它的特征维数(2，048)小于VGGNet (4，096)。此外，一般来说，深度特征优于基于手工特征的方法。这说明了深度模型的特征学习能力。然后，我们可以进一步看到，相对于SVM分类器，KNN总体表现更好。特别是对于AlexNet提取的深度特征，KNN的结果在大多数指标上都优于SVM。KNN分类器的准确率为40.7%，而SVM分类器的准确率仅为28.3%。此外，SVM实现了16.4%的召回率和9.3%的G均值的较差性能。这说明AlexNet的深层特征敏感度低。

表4显示了深度模型在不同评估指标上的softmax分类性能。请注意，ResNet在所有指标上都取得了最佳结果。然而，49.4%的准确率和31.5%的G均值之间的巨大差距表明了我们的IP102数据集的高度不平衡。分类模型偏向于具有大量样本的类别。此外，49.4%的最高准确率证明了IP102的挑战。我们还从头开始训练深度模型，即不在ImageNet上进行预训练。与微调预训练模型相比，结果要差得多，因为这些深度模型具有大量的超参数，并且很容易在训练样本较少的类上过度训练。
在这里插入图片描述

2.5 目标检测的结果

我们在IP102数据集上评估了几种最先进的目标检测方法。基于两个阶段的方法，包括更快的R-CNN (FRCN) [34]和20。他们通过首先在特征图上滑动窗口来扫描潜在的物体，然后对它们进行分类并回归相应的盒子坐标来检测物体。基于一个阶段的方法包括SSD300 [22]、RefineDet [45]和YOLOv3 [33]直接回归每个对象的类别和位置。表6中的检测性能显示了基于区域提议的两级检测器(FPN)相对于统一检测器(SSD300、RefineDet和YOLOv3)的优势。我们观察到，在深度网络中组合来自多个层(FPN和YOLOv3)的特征地图对于对象大小的多尺度适应是有效的。
在这里插入图片描述

2.6 进一步分析

在表5中，我们进一步评估了深度模型在每个超类上的性能。在我们提出的IP102数据集的层次结构中，每个子类被分配一个超类。每个超类都是IP102的一个子集，它覆盖了102种害虫的一部分。例如，对于超类“大米”，我们的目标是将IP102的一个子集分为14类。超类的详细类分布如表1所示。我们选择ResNet [13]作为基本的CNN模型，它在最后一小节的IP102上表现最好。由于IP102在超类水平上的样本数分布仍然是不平衡的，如图3所示，我们还报告了不平衡学习评估的度量的分类结果。
从表5可以看出，模型性能在8个超级类之间有所不同。而且性能最好的“芒果”和性能最差的“大米”的差距是56.9%的准确率。这两个超类的分类结果如图6所示。我们可以看到“芒果”上的害虫在形状、颜色、背景等方面都有区别性特征。至于“大米”，由于三个方面的原因，图像很容易被错误分类。首先，物体和背景之间的颜色是相似的。这些害虫很难用大量的背景信息来区分；第二，组内变异大，如图2所示。这些害虫通常在作物的整个生命周期中不同程度地影响作物，并且它们很难被正确分类，尤其是在幼虫期。第三，类与类之间的害虫往往是相似的，比如亚洲三化螟、三化螟。因此，如图7所示，害虫识别的困难也给检测任务带来了挑战。即使目标被准确地检测到，它也可能被错误地分类。
在这里插入图片描述

在图5(a)中，我们展示了ResNet[13]在IP102各个子类上的分类精度结果。图5(b)和图5©将t-SNE[26]嵌入IP102的特征可视化。我们可以看到，在ImageNet[17]预训练的模型下，ResNet代表更好的区分特征空间中不同的害虫。
在这里插入图片描述