弱监督方法在森林病虫害检测中的应用

最新推荐文章于 2025-03-01 20:50:39 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-01 20:50:39 发布

阅读量758

点赞数 2

文章标签：算法计算机视觉机器学习人工智能深度学习

这篇文章主要从两个方面讨论了弱监督方法在森林病虫害检测中实际应用效果：弱监督的实质是什么，它与传统监督方式的区别是什么？

以及弱监督为什么能应用到森林病虫害检测中? 这两个切入点分别来自于读文章最后的两篇论文的思考和理解，希望能为对做病虫害检测的读者提供思路。

弱监督的实质是什么，它与传统监督方式有什么区别

（1）“弱监督”并不弱：

弱监督的概念主要针对少标记样本或者无标记样本的分类情况而言，其实质是充分利用卷积层所具有的定位能力来实现无label条件下的图像分类任务，从而解决实际分类场景中标记样本获取难的问题。

传统的监督方式依赖于大量的标记样本，针对图像级别的标记还较容易获得，但是像素级别的标注将耗费更多的时间，这无疑给分类任务增加了时间成本。弱监督方法的提出使得基于大量标记样本的训练方式得到转变，人们开始探索仅基于易获得标签（图像级）来实现图像中特定目标的识别与分割（simple to complex;multi-dilated convolution）。实现这一目标的关键是如何构建图像标签和像素之间的关联，而这种关联的实质是建立标签与像素的映射关系，而这种关系的体现往往需要给图像像素赋予相对重要值，2016年发表在CVPR上的一篇文章（CAM）发现，分类网络可以通过Top-down的方式定位出图片上的哪些区域对物体分类的贡献较大，而这些区域往往属于对应语义的物体[1]。该研究对卷积特征映射执行全局平均池化（GAP），并将这些特征用于产生所需输出(分类或其他)的全连接层。基于这种简单的连接结构，可以通过将输出层的权值投影到卷积特征映射上来识别图像区域的重要性，这种技术我们称之为类激活映射（CAM）。

图1 类激活映射:将预测的类得分映射回前一个卷积层，以生成类激活映射(CAMs)

类激活映射

当人去识别一张图像中所包含的常见对象时，往往只需要关注对象的主要特征就能判别，这种生成热力图的方式与人类识别的过程很相似，研究通过训练后的模型来反演出机器所关注的主要特征映射，这种直觉的显示方式使得分类结果更加容易理解，而且其实现方式也十分的简便。文中在分类前，对各个特征执行全局平局池化操作，对特征图中的数字求平均值，从而将特征图转换为单个数字W，这些值通过全连接层转换为分类概率值，单从猫的类输出来看，对应W1，W2，W3三个权重，这三个权重将全局池化输出连接到“猫”输出节点。

图2 图中包含卷积层，全局平局池化层，然后是一个输出分类判断的全连接层

最后一步是得到类激活映射可视化热力图，公式如下：

图3 类激活映射计算过程

（2）全局平均池化与全局最大池化的比较

研究证明了全局平均池化在定位中的优势。文中指出，当对映射进行平均时，所有低值都会减少特定映射的输出。另一方面，对于全局最大池化（GMP），除了最具鉴别能力的区域外，所有图像区域的低值并不影响分数，因为只执行一个最大值操作。但是实验中经过全局平均池化与全局最大池化操作的GoogleNet模型在分类精度上相似，这可能与池化的窗口的大小有关，单一的小窗口可能并不能显著体现全局平均池化与最大池化在查找对象主要特征的差别。

图4 全局平均池化与全局最大池化求值过程

（3）该实验还发现，当GAP之前的最后一个卷积层具有更高的空间分辨率时，网络的定位能力有所提高。这给结合低层高分辨率特征来改进实验方法提供了思路。

弱监督为什么能应用到森林病虫害检测中?

弱监督检测方式可以利用图像级标签实现像素级对象的识别

受限于实际调查样地的复杂环境，使得病害木实际标记样本难以获得，在没有足够标记样本的情况下，采用图像级标签是唯一标记来源，通过判别遥感图像上是否包含病害木，来定义图像的类别属性。受到CAM的启发，Rui Qiao等人在识别马尾松松材线虫病害木的研究过程中，证实了CAM在目标定位的良好表现[2]。

图5 预测的类得分被映射回最后一个卷积层，以生成类激活映射(CAMs),图中病害木区域被突出显示

受到病害影响的树木冠层具有一定的表征变化，比如落叶、变色等现象，这使得病害木与背景之间具有可分离特征，为利用卷积神经网络进行目标检测提供了先决条件。下图展示了病害木实际位置与对应的热力图，其高概率区域多分布在冠层中心区域。

图6 图中红框对应了病害木的实际判别位置，热力图代表该方法的类激活映射结果

病害木的检测方法要不分割要不就是定位，生成的热力图的方式正好有利于定位局部范围，这给病害木的识别提供了技术支持。而且这种定位结果更加关注病害木的中心特征，这也更利于提取周围噪声的影响，使得检测结果更加匹配真实位置。

参考文献

[1] Zhou, B. , Khosla, A. , Lapedriza, A. , Oliva, A. , & Torralba, A. (2016). Learning deep features for discriminative localization. IEEE Computer Society.

[2] Rui Qiao , Ali Ghodsi , Honggan Wu , Yuanfei Chang & Chengbo Wang. (2020). Simple weakly supervised deep learning pipeline for detecting individual red-attacked trees in VHR remote sensing images.Remote Sensing Letters.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。