Few-Shot Hyperspectral Image Classification With Unknown Classes Using Multitask Deep Learning-CSDN博客

本文链接：https://blog.csdn.net/breeze21/article/details/120615811

本文提出了一种多任务深度学习方法MDL4OW，用于存在未知类别的开放世界高光谱图像分类。传统方法假设分类系统完整，但在现实世界中可能忽略新类别。MDL4OW结合分类和重建任务，通过比较原始数据与重构数据的差异来识别未知类。基于极值理论(EVT)的阈值策略用于区分未知和已知类。实验表明，MDL4OW在少样本场景下提高了分类准确性，尤其适用于高光谱图像的开放集识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

期刊影响因子 5 分多。
本文中使用的代码和注释可以在 https://sjliu.me/MDL4OW 上获得。
ps:看完后，看论文看的很失败，好像和我的方向没关，又好像有关，感觉白看了，给我整不会了，又啥也不会了，╮(╯▽╰)╭搁置吧！！！

Abstract

当前的高光谱图像分类假设预定义的分类系统是封闭且完整的，并且在看不见的数据中没有未知或新的类别。然而，这个假设对于现实世界来说可能过于严格。通常，在构建分类系统时会忽略新的类别。封闭性迫使模型在给定新样本的情况下分配标签，并可能导致对已知土地覆盖（例如作物面积）的高估。为了解决这个问题，我们提出了一种多任务深度学习方法，该方法在可能存在未知类的开放世界（命名为 MDL4OW）中同时进行分类和重建【什么是重建？】。将重构数据与原始数据进行比较；那些未能被重建的被认为是未知的，这是基于它们由于缺乏标签而在潜在特征中没有很好地表示【什么意思？】的假设。需要定义一个阈值来区分未知类和已知类【为什么要区分？】；我们提出了两种基于极值理论( the extreme value theory，EVT)的策略，适用于少镜头和多镜头场景。该方法在真实高光谱图像上进行了测试;取得了最先进的结果，例如，对Salinas数据提高了4.94%的总体精度。通过考虑开放世界中未知类的存在，我们的方法获得了更准确的高光谱图像分类，尤其是在少镜头背景下.

索引术语：未知类分类(Classification with unknown classes)，卷积神经网络(CNN)，深度学习，高光谱图像分类，多任务学习，开放集识别(open-set recognition)。

I. INTRODUCTION

自 80 年代以来，世界城市化发展迅速。随着人口的不断增长，生活在这个小星球上的大量人类成为一个至关重要的问题。人类需要充足的粮食供应，但也需要充足的土地资源进行日常生活活动[1]。正在进行的城市化将自然环境转变为城市，并增加了不透水表面的比例，消除了雨水渗透并提高了城市温度。明智地规划土地资源使用是保持世界可持续发展的关键，这需要及时准确地监测土地覆盖情况。

现有的土地覆盖制图方法包括基于卫星和航空遥感图像的土地调查和分类。土地调查对于大面积监测来说是不切实际的，因为它是劳动密集型和耗时的。对卫星图像的每个像素进行分类是一种更流行的方法。可以应用两种现有的半自动方法：语义分割和像素分类。语义分割将整幅图像作为样本实例，直接输出分割结果[2]；这个需要一大组完全注释的图像[3]。这种方法对于详细的土地覆盖制图并不实用，因为：1) 土地覆盖分类系统非常复杂，2) 卫星数据非常多样化。特别是，根据应用的不同，遥感图像可以映射成三到四个类（不透水、植被、水，有时是贫瘠的）或十多个细粒度类[4]-[6]。土地覆盖分类系统是多级的。另一方面，遥感图像的来源多种多样，难以复用以前的数据集。对于光学遥感，光谱带的数量范围从 1 到 100。如果包括非光学数据 [例如极化合成孔径雷达 (PolSAR)]，多样性会增加。因此，像素分类在土地覆盖制图中更受欢迎。

遥感高光谱图像由于其丰富的光谱信息，对土地覆盖分类非常有用。高光谱图像分类的物理理论是每个类别都可以根据其光谱轮廓进行分离。由于其巨大的潜力，高光谱图像分类在过去二十年中得到了快速发展[7]-[9]。在 2000 年代初期，高光谱图像仅被视为序列数据，如经典的二维存储格式（#sample × #feature）所示。在这个阶段，支持向量机（SVM）是主流分类器[10]-[12]。带有内核的 SVM 可以将高光谱数据投影到高维超平面，其中训练数据应该根据它们的类别高度分离。在 2000 年代后期，随着图模型（例如，马尔可夫随机场 [13]）、形态学轮廓 [14] 和其他空间滤波器（包括边缘保留滤波器和 Gabor 滤波器 [15]、[16]）的流行，光谱– 高光谱数据的空间分类成为一个热门话题，并影响了过去十年 [7]。同时，提出了许多解决训练样本有限的高级算法，包括主动学习[17]、[18]、半监督学习[19]、[20]、图模型[21]、稀疏表示[22] 、[23] 和域适应 [24]。由于维数灾难，分类性能也取决于维数，因此波段选择和降维技术广泛用于高光谱图像分类[25]-[27]。

（以下翻译为每段第一句话或最后一句话）

在深度学习时代，新型卷积神经网络(CNNs)、递归神经网络(NNs)和图卷积网络开始主导高光谱和遥感数据[9]、[28]-[34]的分类。深度网络的自动特征学习取代了人工特征工程。… 因此，在收集的样本上训练的机器学习模型可能会面临一些无法归入已知类别之一的实例（这个实例的类是未知的）。

未知类别的影响，虽然依赖于图像的面积，但甚至可能发生在一个非常小的研究区域.

在机器学习中所有测试数据都是已知的假设被称为封闭世界或封闭集 [46]、[47]。

封闭世界的设置对于高光谱图像的精确分类是不够的。

为了解决开放世界的问题，提出了一些日常图像识别的方法。

上面提到的日常图像识别方法大多是基于质心的，其中未知(unknown)分数以分类方式计算，这限制了它们在少镜头环境下的使用。… 综上所述（如表一所示），由于高光谱图像分类与日常图像开集识别的三个显着差异（少镜头、少类和低开放性），很难直接使用 open-set 技术开发用于高光谱图像分类中的日常图像识别。

在本文中，针对少数镜头的性质，我们提出了一种新的多任务深度学习方法，用于开放世界中未知类的高光谱图像分类（MDL4OW），该方法无需以类方式估计类质心。所提出的方法利用多任务学习同时进行分类和重建。未知(unknown)分数是通过比较【如何比较？为什么要比较？】原始数据和重建数据来计算的，然而未知分数由于缺少标签而重建得很差【为什么重建很差？重建很差还能计算未知分数吗？】。这样，提出的 MDL4OW 不需要以分类方式计算平均激活向量或潜在特征 .【不明白？】。因此，它适用于少镜头高光谱图像分类。本研究的主要贡献总结如下：

我们提出了一种名为 MDL4OW 的新型多任务深度学习方法，用于未知类别的高光谱图像分类。提出的方法可以识别未知类别并显著提高分类精度。
所提出的方法不是使用基于质心的方法以分类方式估计未知分数，而是用统计模型 EVT 【如何做？】估计所有数据的未知分数。
因此，所提出的方法优于用于少镜头高光谱图像分类的最先进的开放集技术。
提出了一种新的评估指标( metric )，即映射误差【什么样的指标？】，用于评估未知类别的高光谱图像分类的准确性。这个指标对不平衡的分类【啥叫不平衡分类？】特别敏感，这在高光谱图像中经常出现。

本文的其余部分组织如下。
在第二节中，我们将详细描述该方法。
在第三部分，我们介绍了评价指标和实验设置。
在第四节中，我们讨论了在真实数据集上获得的实验结果并提供了分析。
最后，我们在第五节提出了我们的结论。

II. METHODOLOGY

在本节中，我们将回顾单任务分类网络的组件，包括特征提取器（编码器）和分类器。然后，我们详细描述了所提出的多任务网络，包括用于重建输入实例的编码器-解码器结构。基于带有来自分类系统的标签的实例可以比未知的更好地重建的假设，那些重建损失较大的实例应该被拒绝并被认为是未知的。最后，EVT 用于将未知类与已知类分开。

A. Deep CNNs for Classification

所提出的带有流程图的网络如图 2 所示，它由两个残差学习块 [59] 和一个全局平均池化层 [60] 作为编码器，一个带有SoftMax 函数的全连接层作为分类器，以及一个具有反卷积层的解码器 [61]。分类部分是 HResNet [43] 的修改版本，添加了全局平均池化层。

深度cnn对高光谱图像分类任务的强大能力在于利用卷积层提取光谱空间信息[62]。将 X 视为样本实例空间，其中每个实例 x ∈ X，给定一个具有索引 k 的有限的训练集，其中仅包含几个样本 (xk,lk )【lk 是标签，共用C个类】，其中 lk ∈ L = {1,…,|C| } 是 xk 的标签索引，多级卷积层，连同批量归一化 [63] 和整流线性单元 (ReLU) [64]，作为一个很好的编码器 φ(·) 来提取光谱-空间特征 xφ 作为示例实例的表示：

在这里插入图片描述
在编码器中，卷积层 φconv(·) 的输出可以简化为：

在这里插入图片描述
然后分类器f(·) 以特征提取器φ(·) 的输出向量xφ作为输入。

在这里插入图片描述 Fig. 2. Flowchart of the proposed method. 这里使用的多任务网络采用 9 × 9 × Channel 的输入。该网络的第一部分是一个编码器/特征提取器，具有两个残差单元和一个全局平均池化层。在提取出潜在特征后，一个带有 softmax 函数的全连接层作为分类器，将概率输出到已知类【输出概率到？】。这里的重建任务使用反卷积层逐渐增加潜在特征的空间维度。重建任务的输出是一个 9 × 9 × Channel 实例，通过最小化 l1 损失【不明白？】，它应该与输入数据相似。重建损失由 EVT 建模【不明白？】以分离已知类和未知类。

在纯深度学习场景中，带有 SoftMax 激活函数的全连接层作为分类器 f (·) 并给出第 j 个类别的概率 P(y = j|xφ)：

在这里插入图片描述
其中wj为全连接层中第j个神经元的权值向量，bj为第j个神经元对应的偏置元素，C为类别数。分类任务是通过最小化交叉熵损失函数 lc 来找到网络的最优参数

在这里插入图片描述其中C是预定义类的数量，y是ground truth标签，ˆy是predicted标签。

如前所述，SoftMax 函数将得分向量转换为概率向量，将概率最大的类别视为预测类别。 识别未知类别的一个简单的解决方案是将那些最大概率小于 0.5 的实例视为未知，这是实验中的基线之一（SoftMax，阈值 = 0.5）。

B. Reconstruction via Multitask Learning

到目前为止，特征提取器和分类器共同构成了一个不错的分类机器，但网络仍然无法识别未知。为了赋予网络这种能力，我们添加了一个重建任务：

在这里插入图片描述
其中 ˆx 是重构的实例，fr (·) 是重构函数或命名为解码器，xφ 是来自编码器 φ(·) 的输出潜在特征。在这里，我们使用 l1 距离作为重建损失：

在这里插入图片描述
在多任务网络的训练阶段，我们通过反向传播使总损耗最小化：

在这里插入图片描述
其中 λc 和 λr 分别是控制 lc 和 lr 对多任务网络的损失影响的权重。

在译码器中，关键元素是反卷积层，也称为转置卷积层。可以认为是卷积层的逆，记为 φ†conv(·)，得到

在这里插入图片描述
利用反卷积层，我们可以逐步增加1 × 1 × channel 潜在特征到基于patch的高光谱样本实例中。如图2所示，该方法的重构分支共由5个反卷积层组成，除第一个层外，所有的卷积层都增加了实例的空间维数。

C. Threshold Setting With EVT

在获得重建损失后（示例如图 3 所示），其中较大的损失表明深度学习模型没有针对该实例进行充分优化；损失的尾部分布应该被认为是模型所未知的。在这里，我们采用 EVT 通过对尾部分布进行建模来寻找未知类。

在这里插入图片描述
EVT 表明尾部应为 Weibull 分布[65]。对于一个大类分布 V 和一个足够大的阈值 w，有 {V1，…, Vn} ，n 个独立的同分布样本，累积分布函数可以近似为广义帕累托分布（GPD）：

在这里插入图片描述

获得训练网络后识别未知类的伪代码如算法1所示。

在这里插入图片描述
为了对尾部分布建模，定义尾部大小 t 和阈值 z 来决定已知和未知之间的边界分数。阈值通常设置为0.5 [49]，[52]，而 t 值至少应该是2，以对分布进行建模。提出的MDL4OW方法不受类质心估计【估计？】的影响，提高了其在少镜头环境下的性能。为了便于比较，还应用了分类版本 MDL4OW/C。这两个方法是相似的，不同的是MDL4OW是以全局方式应用的，而MDL4OW/C是以分类方式应用的。实验中阈值设置的详细信息显示在第 III-C 节中。

III. DATA SETS AND EXPERIMENTAL SETUP

A. Data Sets

University of Pavia:
Salinas Valley:
Indian Pines:

B. Evaluation Metrics

Openness:
Open Overall Accuracy (OA)
Micro F1 Score
Mapping Error

C. Experimental Setup

IV. RESULTS AND ANALYSIS

A. With Almost Perfect Classification Systems

Results on the University of Pavia Data Set:
Results on the Salinas Valley Data Set
Results on the Indian Pines Data Set:
Threshold Analysis:
我们在图 7 中的少样本上下文下展示了阈值分析，以证明：1) SoftMax 置信度阈值不足以检测未知数，2) MDL4OW 对阈值设置 (z) 具有鲁棒性。从图 7 中，我们可以看到，在更大的阈值下，F1 分数先略微提高，然后急剧下降。低 SoftMax 概率表明分类器的决策不确定，但不确定性不等于未知数。 一个难以分类的样本实例可能是接近两个类之间决策边界的有价值的实例（主动学习中的有价值的样本）[46]。

B. Comparison With Other Methods

C. With Imperfect Classification Systems

D. Reconstruction Analysis

E. Sensitivity of the Tail Number

F. Sensitivity of Loss Weights

G. Computation Time

V. CONCLUSION

在本文中，我们提出了一种新的多任务深度学习方法，用于开放世界中未知类别的高光谱图像分类，据我们所知，这在文献中尚属首次。传统的高光谱图像分类假设分类系统是完整的，在看不见的数据中不会有未知的类别。这个假设在现实世界中是有风险的，因为地球表面很复杂，而且很难构建一个完美的分类系统，包括所有潜在的类别，如本研究所示，使用流行的高光谱基准作为例子。在这种情况下，已知类别的数量将被高估，从而导致对某些土地覆盖的高估，例如用于粮食生产的作物面积。为了解决这个问题，提出了一种名为 MDL4OW 的多任务深度学习方法，用于未知类别的高光谱图像分类，其中利用多任务网络同时进行分类和重建。分类提供已知类别的概率，而重建用于估计未知分数。大量实验表明，与目前使用的最先进方法相比，所提出的方法可以显着提高 OA、F1 和映射误差方面的分类精度，尤其是在训练样本稀缺的情况下。

进一步的分析表明，分类系统的完整性在未知类别的高光谱图像分类中起着重要作用。如果数据集缺少基本的土地覆盖元素（不透水、植被和水），则所提出的方法对于拒绝未知类并提高分类精度将非常有用。然而，如果分类系统包括所有基本的土地覆盖要素，将难以识别未知类。未来的工作应该集中在这方面，以提供更准确的高光谱图像分类。此外，EVT 的使用是经验性的。如何正确估计尾部分布对于未知类的分类至关重要。未来的研究可能会集中在这方面，并利用高斯分布、偏态正态分布等在开放世界中获得更好的分类。