HyUniDA: Breaking Label Set Constraints for Universal Domain Adaptation in Cross-Scene Hyperspectr

HyUniDA:打破标签集约束,实现跨场景高光谱图像分类中的通用域自适应

摘要:尽管针对跨场景高光谱图像(HSI)分类已提出了大量的域自适应(DA)方法,但大多数DA方法在很大程度上依赖于源域和目标域标签集之间关联的先验知识(包括封闭集、部分集和开放集DA),这严重限制了它们的应用。实际应用场景通常需要在对标签空间无限制的域之间进行知识转移,这被称为通用域自适应(UniDA)。在本文中,我们提出了HyUniDA,这是首次尝试在高光谱图像领域解决UniDA场景问题。HyUniDA主要包含两个部分:共享语义配对(SSP)和域相似性得分(DSS)。我们对源域和目标域进行分组,形成具有判别力的聚类。SSP将具有一致语义特征的聚类对识别为共同类别。通过检查源域和目标域样本的一致性水平,DSS可以在无需先验知识的情况下估计目标聚类的数量并生成不同的聚类。同时,我们应用对比域差异来减轻样本分布的偏移,并使用代表性正则化器来辅助区分目标域聚类。我们在六个典型高光谱图像数据集的三个迁移学习任务上对所提方法进行了评估;结果表明,与其他最先进的(SOTA)DA方法相比,我们提出的方法有3.83%-37.57%的性能提升。
关键词:跨场景;域对齐;高光谱图像(HSI)分类;共享语义配对(SSP);通用域自适应(UniDA)

一、引言

高光谱图像(HSIs)拥有丰富的空间纹理和光谱特征。它们能够获取从紫外线到红外线的数百个光谱波段,展现出卓越的信息检测能力。HSI分类一直是遥感图像处理领域的研究热点,在地质勘探、环境监测和智慧农业等领域有着广泛的应用。然而,HSI中的光谱信息大多与地表物质不存在线性关系。
在这里插入图片描述

深度学习被公认为是一种强大的特征提取工具,它能够有效地处理非线性问题,并且在图像分类、目标检测和图像分割等任务中表现出色。这些算法的快速发展促使一些基于深度学习的方法被引入到HSI分类中,事实证明,这些方法在HSI数据集上具有优越性。在HSI分类中,依赖大量有标签的数据集至关重要,特别是对于训练具有众多参数的深度神经网络而言。此外,传统的基于机器学习的HSI分类假设独立同分布(IID)原则,要求训练数据(源域)和测试数据(目标域)相互独立且具有相同的分布。保持IID对于防止因域分布差异导致的性能下降至关重要。样本标注的耗时费力给HSI分类带来了重大障碍,而且HSI的光谱信息会随着数据采集的季节和天气条件而变化,从而导致源域和目标域之间出现偏移。最近的研究表明,在样本数量有限的情况下进行分类是可行的。例如,Zhu等人提出了一种光谱 - 空间相关的全局学习框架,解决了样本稀缺带来的限制。然而,许多基于卷积神经网络(CNN)的分类方法在跨域任务中有效泛化面临挑战,尤其是当训练和测试样本来自不同的数据分布时。

迁移学习对于解决这一问题特别有用,其中域自适应(DA)可以通过缩小源域和目标域之间的分布差距,将完全标注的源域知识转移到未知的目标域。无监督DA允许利用来自其他更容易获取域的有标签数据,来提高在无标签数据的目标域中的性能。Yan等人考虑了类先验分布的变化,并在最大平均差异(MMD)中添加了特定类别的辅助权重偏差。此外,对抗学习方法也被应用于DA中,以训练一个域分类器无法区分的模型,从而学习域不变特征。Pei等人提出了多对抗域自适应(MADA)方法,基于多个域判别器来捕获多模态结构。Long等人提出了条件域对抗网络(CDANs),使对抗自适应模型基于判别信息进行条件设定。使用DA的跨场景HSI分类方法已得到广泛应用。在HSI领域,Deng等人提出了结合主动学习的多核学习(MKL - AL),通过主动学习用少量有标签样本重新训练多核分类器。Wang等人提出了域自适应广义学习(DABL),在映射特征中使用MMD,并在输入和输出层添加流形正则化。Ma等人引入了域对齐、任务分布和DA三个模块,以最小化域差异并将源模型的能力转移到目标域。

大多数现有的HSI分类方法都遵循一个严格且理想的假设,即要求源域和目标域共享相同的标签集,也就是说,目标域中的所有地物类别都必须出现在训练集中。这是封闭环境,这种场景下的DA被称为封闭集DA,如图1(a)所示。由于土地覆盖的多样性,在某些情况下这个假设可能不成立,训练集中不存在的类别可能会在测试集中意外出现。典型的封闭集DA方法采用线性分类层或softmax函数,通常会根据已知类别为未知类别给出最大概率。如图1(b)所示,开放集设置涉及一种场景,即源域中识别的类别构成目标域中观察到的类别的一部分。开放集环境中的DA旨在有效且稳健地处理目标域中的未知类别(即目标私有类别)。Yue等人提出了一种光谱 - 空间潜在重构框架,以实现稳健的未知检测。Xie等人提出了基于特征一致性的原型网络(FCPN),带有原型引导的开放集模块来识别离群值。此外,不常见的类别可能出现在源域中(即源私有类别)。如图1(c)所示,值得注意的是,源域包含目标域的一组标签,代表部分环境。针对这些场景的DA被称为部分DA。

上述DA设置在处理无监督目标域时,在合理性和现实性方面可能面临挑战。此外,通用DA(UniDA)对上述三种DA设置进行了扩展。UniDA定义了一种场景,其中源域和目标域通常共享一些标签,但同时,每个域都有一组对方没有的私有标签,并且不受任何先验知识的限制,如图1(d)所示。You等人提出了UniDA的概念,并设计了通用自适应网络(UAN),通过利用每个样本的域相似性和预测不确定性来发现共同和私有标签集。Saito等人提出了通过熵优化的域自适应邻域聚类(DANCE),使用邻域聚类方法学习目标域的结构。Chang等人提出了用于UniDA的统一最优传输框架(UniOT),无需手动调整阈值即可找到共同类别,并使用分配矩阵的全局统计信息来区分共同和私有类别。

UniDA的场景设置在遥感领域更加实用和常见。例如,研究人员在亚马逊雨林的有标签数据集上训练了一个模型,并希望将其应用于一个新的研究区域,如喜马拉雅地区。新区域与先前的研究区域不同,可能包含训练数据集中从未出现过的类别,如高山草甸和裸岩。同时,目标域缺少亚马逊特有的沼泽和湿地地区。另一个常见的任务是土地覆盖制图。像美国纽约和日本东京这样的大都市地区一直吸引着研究人员的关注,并且它们的土地覆盖类型图很容易获得。当我们想要研究一个小城市,如塞多纳时,DA可以大大降低制图成本。然而,两个城市的土地类型差异很大,而且红岩是塞多纳特有的。有效地从两个域的私有样本中区分出共同样本是跨不一致标签空间转移的一个主要挑战。UniDA可以应对不同城市和环境中的土地类型变化,并帮助模型学习不同区域之间的转移,使其能够识别和适应新的特征类型。值得注意的是,Xu等人提出了一种用于RGB图像分类的UniDA方法,即模型自适应域自适应(MA)和源数据生成 - 模型自适应(SDG - MA),该方法手动设置阈值来检测共同和未知样本,限制了其在更实际场景中的扩展。在HSI领域,虽然已经提出了各种方法来应对DA场景带来的挑战,但很少有研究致力于这种重要、实用但具有挑战性的情况(UniDA设置)。

为了解决上述问题,我们提出了一种基于共享语义配对(SSP)和域相似性得分(DSS)的UniDA框架,用于跨场景HSI分类,即HyUniDA,以识别目标域的类结构。我们分别对源域和目标域进行聚类,形成具有判别力的聚类。使用SSP探索样本聚类的语义信息,当两个聚类中心同时互为彼此最近的中心时,这一对聚类将被视为共同聚类。接下来,我们设计DSS来表征实现语义一致的样本比例。通过检查源域和目标域样本的一致性水平,DSS可以估计目标聚类的数量并在无需先验知识的情况下生成不同的聚类。对于那些无法找到聚类对等物的中心,我们使用原型正则化器来帮助它们与相邻中心建立联系。这项工作为HSI领域做出了以下关键贡献:

  1. 针对跨场景HSI分类中标签空间不一致的问题,我们提出了HyUniDA,从共同类别检测的角度解决UniDA问题。据我们目前所知,这项工作是首次将UniDA设置引入HSI领域。
  2. 所提出的HyUniDA由SSP和DSS组成。SSP将具有一致语义特征的聚类对识别为共同类别,而DSS在无需先验知识的情况下估计目标聚类的数量并生成不同的聚类,增强了模型在HSI中的适应性。
  3. 该模型结合了对比域差异(CDD)来减轻样本分布偏移,并引入了正则化器以有效区分目标域聚类,提高了所提框架在应对HSI分类中样本分布转移相关挑战时的稳健性和有效性。
  4. 在这里插入图片描述

本文后续部分的结构如下:第二节深入探讨所提出的HyUniDA方法的细节,第三节阐述我们使用的数据集。第四节进行性能评估,以及全面的实验和分析。最后,我们在第六节对本文进行总结。

二、方法

图2展示了所提出的HyUniDA的概述。首先,我们基于K - means对目标样本进行聚类,并得到候选聚类的中心。我们使用SSP在获得的目标聚类中确定代表两个域中共同类别的聚类。当两个分别代表不同域的聚类彼此成为最接近的对应聚类时,属于这对聚类的实例将被识别为具有相同语义注释的共同实例。然后,使用DSS来量化配对聚类之间的一致性,得分越高的聚类与源域聚类的一致性越好。最后,我们应用CDD来减轻样本分布的偏移,并使用代表性正则化器来辅助区分目标域聚类。

(A)问题设置

假设 D s = { ( x i s , y i s ) } i = 1 n s D^{s}=\{(x_{i}^{s}, y_{i}^{s})\}_{i = 1}^{n_{s}} Ds={(xis,yis)}i=1ns是有标签的源域,其中 x i s x_{i}^{s} xis是数据, y i s y_{i}^{s} yis是相应的标签, n s n_{s} ns表示源样本的数量。目标域是无标签的 D t = { ( x i t ) } i = 1 n t D^{t}=\{(x_{i}^{t})\}_{i = 1}^{n_{t}} Dt={(xit)}i=1nt。对于 x i s x_{i}^{s} xis x i t ∈ R H × W × B x_{i}^{t} \in \mathbb{R}^{H×W×B} xitRH×W×B,并且 y i s ∈ { 0 , 1 , 2 , … , K s } H × W y_{i}^{s} \in \{0, 1, 2, \ldots, K_{s}\}^{H×W} yis{0,1,2,,Ks}H×W,H和W分别对应于HSI的高度和宽度,B表示光谱波段大小, K s K_{s} Ks表示地面真实类别的数量。源域和目标域的注释集分别表示为 c s c_{s} cs c t c_{t} ct。包含两个域所拥有类别的标签集表示为 C = C s ∪ C t C = C_{s} \cup C_{t} C=CsCt C ‾ s = C s ∖ C \overline{C}_{s}=C_{s}\setminus C Cs=CsC表示源域特有的注释集。分配给目标域的私有标签集表示为 C ‾ t = C t ∖ C \overline{C}_{t}=C_{t}\setminus C Ct=CtC,被视为未知类别。我们的目标是将目标实例识别为 c s c_{s} cs中的任何给定标签或未知类别。

(B)共享语义配对

  1. 语义编码器:鉴于HSI数据中强大的空间识别能力和多样的多波段光谱细节,语义编码器启动了创建空间和光谱维度的工作流程,如图3所示。在光谱生成过程中,通过12×12的卷积核对图像块中包含的光谱信息进行整合,生成维度为1×1×64的光谱嵌入特征 f s p e f_{spe} fspe。利用二维反卷积操作,光谱特征( S p e S_{pe} Spe)被转换为大小为12×12×64的特征图。源域在HSI数据集中提供大小为12×12×d的空间图像块,然后由生成器对其进行语义编码。使用1×1的卷积核将空间图像块的维度压缩到12×12×3。特征图 f s p a f_{spa} fspa代表空间信息。空间特征( S p a S_{pa} Spa)被映射回12×12×64的特征图。

我们分别将源域和目标域的样本分组为聚类。第 j j j个源聚类的中心 ζ j s \zeta_{j}^{s} ζjs可以表示为:
[\zeta_{j}{s}=\frac{1}{n_{j}{s}} \sum_{x_{i}^{s} \in \mathcal{D}{j}^{s}} \frac{G{f}\left(x_{i}^{s}\right)}{\left| G_{f}\left(x_{i}^{s}\right)\right| }]
其中 D j s = { x i s } i = 1 n j s D_{j}^{s}=\{x_{i}^{s}\}_{i = 1}^{n_{j}^{s}} Djs={xis}i=1njs,特征提取器 G f G_{f} Gf将输入图像映射为向量表示, ζ j s \zeta_{j}^{s} ζjs通过对聚类中所有样本的特征向量进行加权平均计算得到。为了对目标样本进行聚类,我们使用K - means将它们分类为K个组,相关的中心表示为 { ζ 1 t , … , ζ K t } \{\zeta_{1}^{t}, \ldots, \zeta_{K}^{t}\} {ζ1t,,ζKt}

在UniDA中,区分公共样本和私有样本是主要难点。构建SSP旨在促进属于相同类别的聚类之间的语义级关联。我们为每个聚类中心在另一个域中寻找最接近的聚类中心。当两个聚类同时彼此最接近时,它们就形成了共同聚类对。

通过K - means聚类,我们确定目标样本对应的原始原型 { ζ 1 ( 0 ) t , … , ζ K ( 0 ) t } \{\zeta_{1(0)}^{t}, \ldots, \zeta_{K(0)}^{t}\} {ζ1(0)t,,ζK(0)t}

在此,我们给出训练过程中原型的详细评估机制。在每次迭代中,一批样本中局部原型的确定如下:
[\overline{\zeta}{k(I)}{t}=\frac{1}{\left|\overline{\mathcal{D}}_{k(I)}{t}\right|} \sum{x_{i}^{t} \in \overline{\mathcal{D}}{k(I)}^{t}} \frac{G{f}\left(x_{i}^{t}\right)}{\left| G_{f}\left(x_{i}^{t}\right)\right| }]
其中 ζ ˉ k ( I ) t \bar{\zeta}_{k(I)}^{t} ζˉk(I)t的计算方式与上述 ζ j s \zeta_{j}^{s} ζjs类似,I表示当前运行的迭代次数, D ‾ k ( I ) t \overline{D}_{k(I)}^{t} Dk(I)t表示在迭代I中聚类标签为k的目标样本。全局原型通过以下方式更新:
[\zeta_{k(I)}^{t}=\delta_{I} \zeta_{k(I - 1)}^{t}+(1 - \delta_{I}) \overline{\zeta}{k(I)}^{t} \quad(3)]
更新结果是前一个全局实例 ζ k ( I − 1 ) t \zeta_{k(I - 1)}^{t} ζk(I1)t和当前平均原型 ζ ⃗ k ( I ) t \vec{\zeta}_{k(I)}^{t} ζ k(I)t的加权融合。 δ I \delta_{I} δI是局部实例和全局实例之间的余弦相似度,可以表示为:
[\delta
{I}=\frac{\left<\zeta_{k(I - 1)}^{t}, \overline{\zeta}{k(I)}^{t}\right>}{\left| \zeta{k(I - 1)}^{t}\right| \left| \overline{\zeta}_{k(I)}^{t}\right| }]
通过由全局和局部实例之间的一致性驱动的自适应机制,原型库以最大化效率的方式进行更新。

(C)目标聚类的优化

虽然SSP擅长识别共同类别,但在缺乏目标域类别分布信息的情况下,衡量目标聚类的数量具有挑战性。一些研究提出了聚类评估标准来衡量聚类的数量,但这些方法是为单个域量身定制的,并没有直接考虑跨场景知识。作为解决方案,我们建议使用DSS根据样本之间的一致性来识别目标聚类的数量。

对于一对聚类 { p i s } i = 1 m \{p_{i}^{s}\}_{i = 1}^{m} {pis}i=1m { p i t } i = 1 n \{p_{i}^{t}\}_{i = 1}^{n} {pit}i=1n,它们的中心分别为 ζ j s \zeta_{j}^{s} ζjs ζ k t \zeta_{k}^{t} ζkt,对于源域的每个样本,计算它与目标聚类中心 { ζ 1 t , … , ζ K t } \{\zeta_{1}^{t}, \ldots, \zeta_{K}^{t}\} {ζ1t,,ζKt}之间的距离:
[d_{i, k}^{s}=\frac{\left< p_{i}^{s}, \zeta_{k}^{t}\right>}{\left| p_{i}^{s}\right| \left| \zeta_{k}^{t}\right| }, k \in{1, \ldots, K} \quad(5)]
样本聚类得分 S C S ( j , k ) s SCS_{(j, k)}^{s} SCS(j,k)s是由SSP形成的聚类对中同时出现在两个域中的样本比例。可以表示为:
[SCS_{(j, k)}^{s}=\frac{\sum_{i = 1}^{m} 1\left{\arg\max {k}\left(d{i, k}^{s}\right)=k\right}}{m}]
当条件为真时,二元指示函数 1 ⋅ 1{\cdot} 1取值为1;否则,取值为0。类似地,可以得到目标域的样本聚类得分 S C S ( j , k ) t SCS_{(j, k)}^{t} SCS(j,k)t。DSS是这两个得分的平均值:
[DSS_{(j, k)}=\frac{SCS_{(j, k)}^{s}+SCS_{(j, k)}^{t}}{2} \quad(7)]
最后,我们计算所有对应聚类对的平均DSS。通过对不同的K值进行聚类实验来推断目标聚类的最佳数量。我们在一定范围内定期
计算不同K值下的DSS,并选择得分最高的K值来指导后续的聚类过程。

我们希望在一次搜索中确定K的值,但在初始训练阶段,较大的域差距使得这并不可行。DSS的值最初会随着K值的增加而上升,然后下降。为了提高搜索效率,当得分连续多次下降时,搜索将停止,并在某些轮次中保留固定的K值。

(D)域对齐

跨场景HSI分类面临着光谱偏移带来的重大挑战。相同土地覆盖类型的光谱反射率在源域和目标域的HSI中往往不同。可以应用特征生成器 G f G_{f} Gf来获取源域的判别特征,然后分类器 G c G_{c} Gc将样本划分为不同类别。在HyUniDA的训练过程中,主要重点在于最小化源域标记的HSI立方体上标签预测的损失。这种策略性优化旨在细化 G f G_{f} Gf G c G_{c} Gc的参数,以降低源HSI的经验损失。源域的分类损失 ( L S D ) (L_{SD}) (LSD)可以表示为:
[\begin{aligned} \mathcal{L}{SD} & =\frac{1}{n{s}} \sum_{i=1}^{n_{s}} \mathcal{L}{CE}\left(G{c}\left(G_{f}\left(x_{i}^{s}\right)\right), y_{i}^{s}\right) \ & =-\frac{1}{n_{s}} \sum_{i=1}^{n_{s}} \sum_{c=1}^{\left|C_{s}\right|} \hat{y}{i, c}^{s} \log \left(\pi\left(G{c}\left(G_{f}\left(x_{i}^{s}\right)\right)\right)\right) \end{aligned}]
其中 L C E L_{CE} LCE代表标准交叉熵损失, y ^ i , c s \hat{y}_{i, c}^{s} y^i,cs代表与源标签对应的独热编码, π \pi π表示Softmax函数。

在完成SSP之后,将识别出的共同样本聚成簇,我们需要使用类感知方法对齐这些样本。MMD描述了在再生核希尔伯特空间(RKHS)中分布的平均嵌入之间,源域和目标域的差异,公式为 D H ( P , Q ) ≜ sup ⁡ f   H ( E X s [ f ( X s ) ] − E X t [ f ( X t ) ] ) H D_{H}(P, Q) \triangleq \sup _{f ~ H}(\mathbb{E}_{X^{s}}[f(X^{s})]-\mathbb{E}_{X^{t}}[f(X^{t})])_{H} DH(P,Q)supf H(EXs[f(Xs)]EXt[f(Xt)])H,其中H是一类函数, x i s {x_{i}^{s}} xis x i t {x_{i}^{t}} xit分别从边缘分布 P ( X s ) P(X^{s}) P(Xs) Q ( X t ) Q(X^{t}) Q(Xt)中采样。MMD距离可以表示为:
[\mathcal{D}^{mmd}=\left| \frac{1}{n_{s}} \sum_{i=1}^{n_{s}} \phi\left(x_{i}^{s}\right)-\frac{1}{n_{t}} \sum_{j=1}^{n_{t}} \phi\left(x_{j}^{t}\right)\right| _{\mathcal{H}}^{2}]
其中模型由 ϕ \phi ϕ参数化。尽管MMD在测量两个域之间的边缘分布差异方面表现良好,但它侧重于域级别的差异,没有考虑样本类别,无法区分两个域的样本是否与相应的类别标签对齐。

CDD在MMD的基础上结合了类间和类内差异,以实现类感知对齐。CDD采用RKHS中两个条件分布的核均值之间平方距离的最大值,并通过衡量 P ( ϕ ( X s ) ∣ Y s ) P(\phi(X^{s}) | Y^{s}) P(ϕ(Xs)Ys) Q ( ϕ ( X t ) ∣ Y t ) Q(\phi(X^{t}) | Y^{t}) Q(ϕ(Xt)Yt)之间的方差来扩展MMD,即 D H ( P , Q ) ≜ sup ⁡ f   H ( E X s [ f ( ϕ ( X s ) ∣ Y s ) ] − E X t [ f ( ϕ ( X t ) ∣ Y t ) ] ) H D_{H}(P, Q) \triangleq \sup _{f ~ H}(\mathbb{E}_{X^{s}}[f(\phi(X^{s}) | Y^{s})]-\mathbb{E}_{X^{t}}[f(\phi(X^{t}) | Y^{t})])_{H} DH(P,Q)supf H(EXs[f(ϕ(Xs)Ys)]EXt[f(ϕ(Xt)Yt)])H 。在CNN的第 l l l层, D H ( P , Q ) D_{H}(P, Q) DH(P,Q)平方的经验估计如下( y ^ 1 t , y ^ 2 t , . . . , y ^ n t t \hat{y}_{1}^{t}, \hat{y}_{2}^{t}, ..., \hat{y}_{n_{t}}^{t} y^1t,y^2t,...,y^ntt简记为 y ^ 1 : n t t \hat{y}_{1:n_{t}}^{t} y^1:ntt ):
[\hat{\mathcal{D}}^{c_{1} c_{2}}\left(\hat{y}{1: n{t}}^{t}, \phi\right)=\Psi^{c_{1} c_{1}}(s, s)+\Psi^{c_{2} c_{2}}(t, t)-2 \Psi^{c_{1} c_{2}}(s, t) \quad(10)]
其中
[\Psi^{c_{1} c_{2}}(s, t)=\sum_{i=1}^{n_{s}} \sum_{j=1}^{n_{t}} \frac{\mu_{c_{1} c_{2}}\left(y_{i}^{s}, \hat{y}{j}^{t}\right) k{l}\left(\phi\left(x_{i}^{s}\right), \phi\left(x_{j}{t}\right)\right)}{\sum_{i=1}{n_{s}} \sum_{j=1}^{n_{t}} \mu_{c_{1} c_{2}}\left(y_{i}^{s}, \hat{y}{j}^{t}\right)}]
[\mu
{c_{1} c_{2}}\left(y_{1}, y_{2}\right)=\left{\begin{array}{ll}1, & \text{如果 } y_{1}=c_{1}, y_{2}=c_{2} \ 0, & \text{否则} \end{array}\right.]
k l k_{l} kl表示应用于CNN第 l l l层的核; c 1 c_{1} c1 c 2 c_{2} c2分别是源域和目标域HSI的类别标签。当 c 1 = c 2 = c c_{1}=c_{2}=c c1=c2=c时,它捕获类内域差异,并努力最小化类内差异,从而增强类内样本特征的紧凑性。而如果 c 1 ≠ c 2 c_{1} ≠c_{2} c1=c2,它代表类间域差异,旨在最大化不同类特征之间的差异,从而增强它们向决策边界的分离。

根据上述定义,CDD由类内差异 ( D ^ l i n t r a ) (\hat{D}_{l}^{intra }) (D^lintra)和类间差异 ( D ^ l i n t e r ) (\hat{D}_{l}^{inter }) (D^linter)之间的差值量化:
[\begin{aligned} \hat{\mathcal{D}}{l}^{cdd }= & \hat{\mathcal{D}}{l}^{intra }-\hat{\mathcal{D}}{l}^{inter }=\frac{1}{\left|\mathcal{C}{s}\right|} \sum_{c=1}^{\left|\mathcal{C}{s}\right|} \hat{\mathcal{D}}^{c c}\left(\hat{y}{1: n_{t}}^{t}, \phi\right) \ & -\frac{1}{\left|\mathcal{C}{s}\right|\left(\left|\mathcal{C}{s}\right|-1\right)} \sum_{c=1}^{\left|\mathcal{C}{s}\right|} \sum{\substack{c’=1, c’ \ c’ \neq c}}^{\left|\mathcal{C}{s}\right|} \hat{\mathcal{D}}^{c c’}\left(\hat{y}{1: n_{t}}^{t}, \phi\right) \end{aligned}]

在深度CNN中,目标是减少多个全连接层的CDD;具体来说,任务是最小化:
[\mathcal{L}{CDD}=\sum{l=1}^{L} \hat{\mathcal{D}}_{l}^{cdd } \quad(13)]
CDD是HyUniDA的关键组成部分,增强了模型在不同数据集和场景中的泛化能力。CDD最小化类内差异并最大化类间边缘,这在具有光谱变化的HSI应用中非常有效。通过独特地解决类级域差异并以对比方式对其进行优化,HyUniDA实现了增强的域对齐。

与源域一样,我们通过使用标准交叉熵损失计算目标域的分类损失 L c l s T L_{cls}^{T} LclsT ,从而提高模型的判别能力。此外,我们对目标场景应用熵正则化损失 L r e g T L_{reg }^{T} LregT ,以增强目标实例的区分度。

存在一个原型集 Ω = [ ζ 1 t , ζ 2 t , . . . , ζ K t ] \Omega=[\zeta_{1}^{t}, \zeta_{2}^{t}, ..., \zeta_{K}^{t}] Ω=[ζ1t,ζ2t,...,ζKt],它包含每个目标聚类的L2归一化中心,在训练过程中对原型进行持续的迭代调整。目标域的损失 L T D L_{TD} LTD由分类损失 L c l s T L_{cls}^{T} LclsT和原型正则化器 L r e g T L_{reg }^{T} LregT组成,可以表示为:
[\begin{aligned} \mathcal{L}{TD} & =\mathcal{L}{cls }{T}+\mathcal{L}_{reg}{T} \ & =\frac{1}{n_{t}} \sum_{i=1}^{n_{t}} \mathcal{L}{CE}\left(G{c}\left(G_{f}\left(x_{i}^{t}\right)\right), \hat{y}{i}{t}\right)-\sum_{i=1}{n{t}} \sum_{k=1}^{K} \hat{y}{i, k}^{t} \log \hat{p}{i, k} \end{aligned}]
[\begin{aligned} = & -\frac{1}{n_{t}} \sum_{i=1}^{n_{t}} \sum_{c=1}^{\left|C_{t}\right|} \hat{y}{i, c}^{t} \log \left(\pi\left(G{c}\left(G_{f}\left(x_{i}^{t}\right)\right)\right)\right) \ & -\sum_{i=1}^{n_{t}} \sum_{k=1}^{K} \hat{y}{i, k}^{t} \log \frac{\exp \left(v{i}^{T} \zeta_{k}^{t} / \tau\right)}{\sum_{k=1}^{K} \exp \left(v_{i}^{T} \zeta_{k}^{t} / \tau\right)} \end{aligned}]
其中 y ^ i t \hat{y}_{i}^{t} y^it是独热聚类标签, p ^ i , k \hat{p}_{i, k} p^i,k是目标域中分类器预测的概率,向量 v i v_{i} vi代表目标域的归一化特征,温度参数 τ \tau τ始终配置为0.1。

(E)HSI的统一UniDA框架(HyUniDA)

在HSI领域对UniDA的探索中,我们引入了一个统一的域自适应(HyUniDA)框架,它无缝集成了三个关键组件:源样本上的交叉熵损失 ( L S D ) (L_{SD}) (LSD)、目标域相关的损失 ( L T D ) (L_{TD}) (LTD)和CDD损失 ( L C D D ) (L_{CDD}) (LCDD)。HyUniDA的训练过程如算法1所示。

我们的目标是优化一系列损失函数,以解决HSI数据的内在复杂性以及不同源域和目标域带来的挑战。 L S D L_{SD} LSD确保有效利用源样本,使其适应目标域的独特特征。同时, L T D L_{TD} LTD有助于模型与目标域固有的独特特征对齐。 L C D D L_{CDD} LCDD利用类感知分布分析,能够更全面地量化源域和目标域之间的差异。总体目标通过以下公式描述:
[\mathcal{L}=\mathcal{L}{SD}+\gamma \mathcal{L}{TD}+\lambda \mathcal{L}_{CDD} \quad(15)]
为了使聚类数量在初始训练阶段能够增长,并避免在饱和后获取更多私有样本,我们引入了增量参数 γ \gamma γ γ = e − ω × ( i / N ) \gamma = e^{-\omega \times(i / N)} γ=eω×(i/N),其中 i i i N N N分别表示当前和全局迭代次数, ω = 3.0 \omega = 3.0 ω=3.0。对于所有数据集, λ \lambda λ始终配置为0.1。通过策略性地整合这些损失组件,我们旨在为处理各种HSI数据集和域转移带来的固有挑战提供有效的解决方案。

三、数据集

使用六个公开可用的跨场景HSI数据集进行实验,即Houston2013、Houston2018、Pavia Center、Pavia University、HyRANK Dioni和HyRANK Loukia,以测试所提出的HyUniDA。这些数据集具有地理多样性和光谱复杂性。

  1. Houston数据集:该数据集包含通过不同传感器获取的场景,分别表示为Houston2013和Houston2018,它们在不同年份对休斯顿大学校园及其周边地区进行了勘测。聚焦于Houston2013和Houston2018场景中209×955像素的重叠区域,我们探索了48个光谱波段中的共性。在这两个场景中识别出七个类别。在本文中,我们选择非住宅建筑作为源私有类别,道路作为目标私有类别,其他五个类别(1 - 5类)作为共同类别。表I列举了各个类别及其相应的样本数量。相关可视化可参考图4,其中展示了伪彩色图像和地面真实地图。
  2. Pavia数据集:该数据集由两部分组成:Pavia Center(1096×715像素)和Pavia University(610×340像素)。我们舍弃了Pavia University原始数据立方体的最后一个光谱波段,以获得具有一致波段数的Pavia数据集,总共有102个波段。它们都包含相同的七个类别。在本文中,我们选择草地作为源私有类别,裸土作为目标私有类别,其他五个类别(1 - 5类)作为共同类别。表II列举了各个类别及其相应的样本数量。相关可视化可参考图5,其中展示了伪彩色图像和地面真实地图。
  3. HyRANK数据集:源自Hyperion传感器,具有176个不同的光谱波段,HyRANK数据集呈现了两个经过精细标注的场景,Dioni和Loukia。这两个标注场景有12个一致的类别。在本文中,我们选择稀疏植被区域和岩石沙地作为源私有类别,水和沿海水域作为目标私有类别,其他八个类别(1 - 8类)作为共同类别。表III列举了各个类别及其相应的样本数量。相关可视化可参考图6,其中展示了伪彩色图像和地面真实地图。

四、实验结果

(A)实验设置

我们的评估涵盖了六个HSI数据集,以评估所提方法的性能。利用PyTorch框架,我们实例化并执行HyUniDA,计算在GeForce 1080 Ti GPU上进行。在本文的所有实验中,我们使用与文献[38]相同的VGG16架构。分类器包括两个全连接层,遵循现有研究[48,52]的设计。优化过程使用Nesterov动量随机梯度下降(SGD),动量为0.9,权重衰减参数为0.0005。图像块应标准化为12×12大小,每个图像块根据其几何中心像素的类别进行标注,批量大小统一设置为128。学习率由动态衰减机制控制,定义为 ( 1 + α v ) − β (1+\alpha v)^{-\beta} (1+αv)β,参数 α = 10 \alpha = 10 α=10 β = 0.75 \beta = 0.75 β=0.75 v = i / g v = i / g v=i/g表示训练过程中的线性过渡,范围从当前迭代次数 i i i与总迭代次数 g g g的比值从0到1。初始学习率可以在{0.0001, 0.001, 0.01, 0.1}中选择。

评估指标:对于UniDA,评估有效性需要仔细考虑常见类别和私有类别的精度动态变化。除了报告特定类别、常见类别、目标私有类别和总体分类精度外,我们还采用了Fu等人提出的H分数评估协议,该协议弥补了先前对开放类别忽视导致的每类精度问题。通过联合评估常见类别精度 ( a c ) (a_{c}) (ac)和目标私有类别精度 ( a C ˉ t ) (a_{\bar{C}_{t}}) (aCˉt),H分数提供了一个全面的性能度量。其计算方式如下:
[H - score =2 × \frac{a_{\mathcal{C}} × a_{\overline{c}{t}}}{a{\mathcal{C}}+a_{\overline{\mathcal{C}}_{t}}} \quad(16)]
在这个评估中,H分数的峰值取决于 a c a_{c} ac a C ˉ t a_{\bar{C}_{t}} aCˉt的同时增加,突出了识别常见样本和私有样本的能力。

(B)对比方法

为了建立全面的性能基线,我们纳入了一系列最先进的(SOTA)DA算法进行比较,其中包括两种封闭集DA方法,即域对抗神经网络(DANN)和CDAN;一种部分DA方法(部分对抗域自适应(PADA));一种开放集DA方法(反向传播开放集域自适应(OSBP));以及四种UniDA方法(UAN、DANCE、UniOT和用于遥感图像场景分类的UniDA(MA))。根据封闭集DA的设置,它难以准确分类目标私有类别。使用Softmax回归为目标域分配不同标签,将概率最高的标签分配给目标样本。当所有已知标签的概率都低于阈值时,我们将其设置为未知,即目标私有类别。此外,我们在评估中纳入了基线模型作为比较参考点。需要强调的是,基线模型仅使用分类损失,不包含任何DA技术。

在训练和测试前,对源域和目标域的光谱数据进行L2范数行归一化处理。表IV - 表VI展示了上述方法在三个目标场景中的常见类别精度、目标私有类别精度、总体精度和H分数,以及各个类别的分类精度。我们还列出了所提方法的平均精度和标准差。常见类别精度是指在源域和目标域中都出现的类别的精度,即正确识别的常见类别样本数占常见类别样本总数的比例。我们的HyUniDA在所有基准测试中表现优异,在总体精度和H分数方面均领先。对于封闭集DA方法,两种对比方法的总体精度均高于基线模型,并且在H分数方面,除了Houston数据集中的CDAN(-0.1%)和HyRANK数据集中的DANN(-0.11%)外,大多数都优于基线模型。DANN在特定类别中表现出较高的精度,例如Houston数据集中住宅建筑的精度为76.66%,Pavia数据集中阴影的精度为98.20%。在Pavia数据集中,OSBP在目标域私有样本的精度方面得分最高。至于部分集和开放集DA算法,在UniDA设置下,它们的H分数可能比简单的基线模型更差,比如休斯顿数据集中的PADA(-0.44%)和HyRANK数据集中的OSBP(-8.36%),这表明存在显著的负迁移效应(TE)。虽然UniDA方法产生了更优的结果,但需要注意的是,负迁移仍然存在。一个令人惊讶的发现是,作为一种最新的SOTA方法,UniOT在HSI跨域分类的UniDA场景中表现较差,其H分数比基线模型低3.08%,总体性能甚至比封闭集DA还差。为遥感RGB图像设计的MA模型表现也不佳,H分数仅为38.30%。在我们选择的三种UniDA对比方法中,DANCE是效率最高的,在休斯顿数据集中常见类别的准确率达到了54.13% 。然而,我们提出的HyUniDA在休斯顿、帕维亚和HyRANK数据集上分别实现了最高的总体准确率,达到60.79%、63.07%和57.64%,以及最高的H分数,分别为63.22%、61.59%和64.50%,与基线相比有显著提升(12.86%-38.39%)。此外,与其他SOTA方法相比,HyUniDA在这三个HSI目标场景的H分数上提高了6.92%-13.30%、4.65%-28.78%和7.08%-34.49%。

图7-9分别展示了每个对比算法在目标场景休斯顿2018、帕维亚大学和HyRANK Loukia上的分类图。在这些图中,有标签的像素反映了预测的地物类别,而无标签的像素表示背景或忽略的类别。黑色矩形圈出了一些关键区域,以展示HyUniDA的优越性。显然,我们提出的HyUniDA算法在分类图的特定区域表现出更低的噪声和更高的精度。例如,在休斯顿2018数据集中的第三类(树木)、帕维亚大学数据集中的树木和沥青类别,以及HyRANK Loukia数据集中的密集城市建筑类别上,HyUniDA显示出显著的降噪效果和精度提升,优于其他SOTA对比方法。所提出的HyUniDA能够精确识别目标域中的私有样本,能够正确分类更多样本,从而提高了生成的分类图与真实地图之间的整体一致性。这种对目标域特定信息的准确捕捉能力,使HyUniDA成为跨场景HSI分类任务中强大而有效的方法。

(C)消融研究

为了验证和评估HyUniDA的有效性,我们进行了一系列消融实验,旨在深入了解各个组件对整体性能的贡献。这些实验包括SSP的影响、不同损失函数的作用、对超参数的敏感性,以及在现实UniDA设置下的稳健性。第IV-C1-IV-C4节将详细介绍每个消融实验的结果及其对所提模型性能的影响。

  1. SSP的有效性:我们深入研究SSP机制及其对优化过程的影响。图10展示了在三个不同场景的训练过程中,聚类数量( K K K)的动态演变。这些实验有意忽略了第二节C部分中提出的停止准则。图10描绘了聚类数量的收敛过程,经过最初的几次尝试,最终稳定在一个最优值。这种收敛模式与DSS的演变行为一致。这一发现表明,在训练早期探索 K K K值至关重要;我们的方法能够有效地达到聚类数量的稳定最优值,这为所提出的停止准则的有效性提供了实证支持。
  2. L T D L_{TD} LTD L C D D L_{CDD} LCDD的有效性:对 L T D L_{TD} LTD L C D D L_{CDD} LCDD贡献的分析包括分别使用每个项训练模型,详见表VII。当仅考虑源域的交叉熵损失( L S D L_{SD} LSD)时,模型表现出中等性能,在三个任务中的准确率范围为42.68%-50.88%,H分数范围为38.22%-52.84%。引入 L T D L_{TD} LTD导致准确率和H分数都有所提高,这表明目标域损失在使模型与目标域特征对齐方面是有效的。这一增强在任务C中尤为明显,准确率从50.56%跃升至57.83%,H分数从54.25%提高到60.77%。 L C D D L_{CDD} LCDD通过解决对比域差异进一步提升了HyUniDA的性能,几乎在所有任务中都观察到准确率和H分数的提高。对于任务B,实施 L C D D L_{CDD} LCDD后,总体准确率和H分数分别比仅使用 L T D L_{TD} LTD时提高了4.19%和3.53%。当所有三个损失项都启用时,所有任务都实现了最佳性能,这表明它们是互补的,对UniDA场景有益。这项综合分析强调了在源域损失的基础上纳入目标域损失和CDD损失的好处,证实了它们在促进不同HSI分类任务中的DA性能方面的有效性。
  3. 对超参数的敏感性:我们对两个关键超参数 λ \lambda λ ω \omega ω进行敏感性分析:图11描绘了相应于这些超参数变化的总体准确率和H分数的性能。将 ω \omega ω设置为3,我们评估参数 λ \lambda λ在0-0.4范围内的总体准确率和H分数,分别如图11(a)和(b)所示。可以注意到, λ = 0.1 \lambda = 0.1 λ=0.1的配置优于其他设置,表现出显著的提升。当 λ \lambda λ的值超过0.3时,除了HyRANK数据集外,H分数会急剧下降。对于固定为0.1的 λ \lambda λ,在1-5的范围内评估 ω \omega ω的总体准确率和H分数,分别如图11(c)和(d)所示。调整 ω \omega ω的值时,总体准确率保持相对稳定。然而,当 ω = 2 \omega = 2 ω=2时,H分数会显著下降。需要注意的是,这两个超参数对每个测试的HSI数据集都有不同程度的影响。根据我们的发现,我们为所有任务设置了一组最优超参数: λ = 0.1 \lambda = 0.1 λ=0.1 ω = 3 \omega = 3 ω=3
  4. 在现实UniDA中的稳健性:在实际的跨域HSI分类场景中,目标域的样本类别是完全未知的,这会导致大量的类别划分。为了评估我们提出的HyUniDA在现实UniDA中的稳健性,我们使用HyRANK数据集进行实验,考虑不同比例的常见类别。表VIII概述了实验结果,其中 c c c表示常见类别的数量, C ˉ s \bar{C}_{s} Cˉs c ˉ t \bar{c}_{t} cˉt分别是源域和目标域的私有类别数量。可以观察到,HyUniDA在不同的类别划分中始终保持较高的总体准确率和H分数,展示了对共享类别的强大泛化能力。总体准确率范围为57.54%-61.88%,H分数范围为59.48%-69.15%。对于目标私有类别,HyUniDA表现出色,准确率超过85.18%。这意味着HyUniDA在目标域的特征学习方面非常有效,能够准确区分目标私有样本。不幸的是,当 C ‾ t ≥ 2 \overline{C}_{t} ≥2 Ct2时,目标域包含许多在源域中未见过的私有样本。模型难以准确预测每个私有类别,因此只能呈现目标私有类别的平均准确率。总体而言,所提出的HyUniDA在各种类别划分下都实现了显著的总体准确率和H分数,证明了其在处理实际UniDA场景中的稳健性和卓越性能。

五、讨论

我们提出的用于跨场景HSI分类的HyUniDA解决了遥感领域一个关键且实际的挑战,特别是在目标域标签集完全未知的场景中,即两个域中都可能存在私有类别。本节重点讨论实际应用场景中的迁移效应(TE)和局限性。

(A)实际应用场景的迁移效应

UniDA带来了一个实际且复杂的迁移挑战。在现实世界场景中,存在许多源样本和目标样本不一致的情况。例如,使用在城市地区训练的模型来绘制农村地区的土地覆盖图时会面临挑战,因为两个区域都存在私有样本(如城市地区的建筑物和基础设施,以及农村地区的农田)。我们将迁移效应定义为DA模型与基线模型相比的有效性差异:
[TE=H -score _{DA}-H -score _{Baseline }]
T E < 0 TE<0 TE<0表示DA方法在UniDA场景中表现出负迁移效应,没有任何改进。值得注意的是,当面对目标域标签集完全未知的场景时,传统的DA方法可能会遇到困难,导致性能不理想。表IV-表VI表明,现有方法存在一些负迁移现象,例如休斯顿数据集中的CDAN(-0.1%)和PADA(-0.44%),以及HyRANK数据集中的DANN(-0.11%)、OSBP(-8.36%)和UniOT(-3.08%)。对于HyRANK数据集,地物类型复杂,土地覆盖多样,因此Dioni和Loukia之间的光谱差异可能很大。源域和目标域之间的光谱和空间差异导致特征偏移。在UniDA场景中,目标域的标签集是未知的,这使得封闭集DA方法或针对一般数据集的UniDA方法在处理未标记的目标HSI数据时表现不佳。源域和目标域都有私有样本,使得模型难以泛化。我们新提出的HyUniDA在其他SOTA DA方法中脱颖而出,在处理跨场景HSI分类问题上取得了显著进展,填补了遥感领域UniDA的空白。

HyUniDA首次打破标签集约束,尝试解决UniDA场景,特别是针对HSI。它由SSP和DSS组成。SSP有效地识别出具有一致语义特征的聚类对,从而能够更准确地识别不同场景中的共同类别。这一创新解决了跨场景HSI分类中标签空间不一致的固有挑战。DSS的引入是HyUniDA的一个独特之处,对其性能有显著贡献。DSS不仅可以估计目标聚类的数量,还能在没有先验知识的情况下生成不同的聚类。这种能力增强了模型在HSI分类中的适应性,特别是在处理具有不同复杂程度和多样性的数据集时。通过结合CDD,HyUniDA有效地减轻了样本分布偏移。这在HSI分类中至关重要,因为不同场景下样本分布的差异会显著影响分类精度。为有效区分目标域聚类而引入的正则化器进一步增强了所提框架的稳健性和有效性。

(B)局限性和未来工作

虽然HyUniDA表现出有前景的性能,但为了更全面的理解,必须解决其局限性。一个限制是它对超参数的敏感性。HyUniDA的有效性可能会受到所选超参数的影响,需要进行微调以获得最佳性能。此外,当源域和目标域之间的特征偏移很大,或者标签分布极其不平衡时,HyUniDA的性能可能不足。我们的模型在HyRANK数据集中的果树和针叶林类别上表现不佳,其他SOTA方法如DANCE(果树类别准确率为5.06%)和UniOT(果树类别准确率为7.59%)也是如此。为遥感设计的MA模型在许多类别上的分类准确率较低,例如HyRANK数据集中的第1、2和5类。之前SOTA方法在帕维亚数据集的砖块类别上的准确率低于预期。UniOT仅达到2.04%,CDAN为5.13%,PADA为6.57%。

未来的工作应集中在改善该方法对超参数的敏感性,探索自动化超参数调整的方法。增加训练数据和平衡类别表示可以减轻数据不平衡的影响。诸如对少数类别进行过采样或引入合成样本等策略可能会增强模型的稳健性。采用针对HSI的DA技术可以应对域转移带来的挑战,这些技术包括域不变特征学习或域对抗训练。对低准确率类别的光谱特征进行更深入的分析可能会揭示特定的挑战。此外,提高对目标域中罕见私有类别的识别策略应成为进一步研究的重点。这些努力将有助于提高HyUniDA在各种具有挑战性的场景中的有效性和适用性。

六、结论

在本文中,我们首次讨论了UniDA场景下的跨场景HSI分类,即在没有标签空间限制的情况下进行域间知识转移。我们提出了一种基于SSP和DSS的UniDA框架,用于跨场景HSI分类,即HyUniDA。SSP将具有相似语义特征的聚类对识别为共同类别,DSS从样本层面计算目标聚类的数量并发现私有类别。无需任何预设阈值,基于从SSP获得的聚类对的DSS值,可以自动检测共同类别和私有类别之间的固有差异。此外,利用CDD最小化样本中的任何分布偏差,同时采用原型正则化器促进目标域聚类的分离。我们的HyUniDA在六个典型HSI数据集的三个迁移学习任务中表现卓越,证明了其在广泛的SOTA算法中的优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值