这篇论文也是将SAM与RS结合的文章,TIME TRAVELLING PIXELS名字也很有意思。
Paper: https://arxiv.org/abs/2312.16202
Code: https://github.com/KyanChen/TTP
我们引入了时间旅行像素(TTP),一种将SAM基础模型的潜在知识集成到变化检测中的新方法。该方法有效地解决了一般知识转移中的领域转移问题,以及多时间点图像同质和异质特征表达的难题。具体来说,TTP在SAM中引入低阶微调参数,减轻了空间语义的域漂移。此外,TTP提出了一个时间旅行激活门,允许时间特征渗透到像素语义空间,从而使基础模型具备理解双时间图像之间的同质性和异质性特征的能力。最后,我们设计了一个轻量级、高效的多级变化预测头来解码密集的高层变化语义特征。
TTP主要由三个部分组成:基于低阶微调的基础模型骨干;双时相特征间的时间旅行激活门;以及高效的多级解码头。其结构如图1所示。
Efficient Fine-tuning of Foundation Model
SAM为了提高计算效率,主干中的大多数vit层采用局部关注,只有四个层使用全局关注。在本研究中,我们冻结vit,为了缓解自然图像和遥感图像之间的差距,我们在多头自注意力层中引入了低秩可训练参数,如下面的等式所示:
其中,W0∈R d×d表示原始冻结模型参数,Wa∈R d×r和Wb∈R d×r, r≪d(r=16)表示引入的额外微调参数。我们在编码器的每一层的自注意矩阵Q, K, V的线性投影层中加入了低秩微调。X∈R b×n×d为输入特征,H∈R b×n×d为自注意运算后的输出。
Time-traveling Activation Gate
在变化检测中,模型需要关注双时相图像的“有效差异”而忽略“无关差异”。因此,我们引入时间旅行激活门,它促进了双时间特征在像素特征语义空间中的流动。这使基础模型能够理解双时相图像的变化,并专注于“有效变化”。为了提高效率,我们只在主干网中加入全局注意层之后的激活门,即我们只使用四个双时间时间旅行激活门。我们将X0和X1∈R b×c×h×w分别作为前一阶段和后一阶段的特征。按照下面的公式来集成双时态信息
其中Φcat表示沿着通道维度的向量拼接,Φ 1 proj表示线性通道压缩,δ是一个sigmoid激活函数,◦表示逐像素乘法。Φ 2 proj表示线性映射。
Multi-level Decoding Head
ViT的编码器通常生成单一比例尺的特征图,尽管映射包含高级全局语义信息,但如果没有Multi-level Decoding Head,它们的性能优势可能难以展示(这句话说的很难让人信服…)。因此,我们引入了一个轻量级和高效的多级变化预测头,通过转置卷积上采样和最大池下采样来构建多级特征,然后使用一个轻量级的MLP映射层输出最终的变化概率图:
其中Φsampling表示上采样/下采样生成的各级特征图,Φ 1 proj和Φ 2 proj表示MLP映射层,Φresize表示对特征进行双线性插值,统一尺度进行拼接。
我的收获:可以借鉴本文对VIT Encoder中预训练参数的Efficient Fine-tuning;这个方法只用了SAM的VIT_Image_Encoder,其余对我帮助不大。