高光谱目标检测-语义多实例神经网络(1)

AIM086

已于 2023-07-29 23:16:36 修改

阅读量432

点赞数

分类专栏：高光谱目标检测文章标签：人工智能目标检测 lstm 深度学习机器学习

于 2023-07-29 12:19:32 首次发布

本文链接：https://blog.csdn.net/qq_43538018/article/details/131993267

版权

高光谱目标检测专栏收录该内容

1 篇文章

订阅专栏

语义多实例神经网络（Semantic MINN）

论文Semantic modeling of hyperspectral target detection with weak labels

结合对比和稀疏注意力融合机制

在训练中，将高光谱图像划分为数据包，利用 1D-CNN 进行高级光谱特征提取，然后将其传递到稀疏归一化特征学习和融合模块以获得包嵌入。

(1) 对于给定的包对，应用基于 1D-CNN 的特征提取和 LSTM 语义建模来**学习**丰富且有区别的**光谱特征**。

(2) 设计了基于注意力的稀疏归一化权重计算模块，用于发现隐藏在正包中的关键实例，随后将其用于融合实例特征以获得袋表示。

(3) 通过优化基于度量的特征对比损失来增强这些包嵌入的显著特征，这有助于学习更多的判别性特征

(4) 设计了一种针对融合特征的高效高光谱目标检测器

数据集处理

高光谱数据被分为N个包: B = [B₁,B₂,…,B_N].

第i个包B_i包含n_i个实例，每个像素实例的维度为d.

包集合对应的标签为 Y = [Y₁, …,Y_i, …, Y_N]，Y_i∈{0, 1}.

两种包对：正包对和负包对，用于测量不同样本间的相似性及不同包之间的关联

每个菱形代表一个光谱特征（像素实例），红色为目标实例，绿色为非目标实例。负对包含两个具有不同标签的包；正对包含两个具有正标签的袋子，以强调目标实例的共同特征

高光谱数据不平衡：正袋的数量远小于负袋的数量。改变正包中实例的排列以产生多个正包，生成数量相当的正负对，以减轻样本不平衡的影响。

M个新包集: D = {D₁, D₂, …, D_M}, B⊂D.

K个包对集: P = {P₁, P₂, …, P_K}，P_k = {D_i, D_j}.

包对级标签: L = [L₁, L₂, …, L_K], L_k = 1代表正对，L_k = 0代表负对。

光谱特征提取和语义建模

1D-CNN光谱特征提取

包含三个卷积块，每个块包含三个部分：1D卷积，PReLU激活和最大池化。提取的特征被传送到全连接层和Tanh激活层。

每个数据包的实例由d维转换为 d’ = 128 维的特征向量。

LSTM语义建模

数据包D_i经1D-CNN提取得到的特征为S_i = {s_i1, s_i2, …, s_{in_i}} ∈ R^d’×n_i.

Analogous: 特征向量s_ij与LSTM模型中的词向量类似。从高光谱特征包**S_i**中发现目标实例类似于从句子组中寻找关键词。

LSTM基本结构

在第t个时间步中，S _i中的第t个实例s _it和之前的时间步的状态h _t-1作为当前的输入。LSTM层的隐藏神经元数量设置为d _h.

LSTM中的三个门单元（遗忘门、输入门、输出门）可以高效过滤非目标信息，并以细胞状态c_j作为信息传递的纽带。

遗忘门：
$f_{j}=\sigma\left(W_{f}\left[s_{j},h_{j-1}\right]+b_{f}\right).$
输入门（更新门）：
$p_{j}=\sigma(W_{in}[s_{j},h_{j-1}]+b_{in}), \\ g_{j}=\text{Tanh}(W_{g}[s_{j},h_{j-1}]+b_{g}), \\ c_{j}=f_{j}\circ c_{j-1}+p_{j}\circ g_{j}.$
输出门：
$o_{j}=\sigma(W_{o}[s_{j},h_{j-1}]+b_{o}), \\ h_{j}=o_{j}\circ \text{Tanh}(c_{j})$
其中，符号 $\circ$ 表示哈达玛积（Hadamard product），两同阶矩阵对应位置元素相乘，得到新矩阵。 $W=\lbrace W_{f},W_{in},W_{g},W_{o}\rbrace$ 和 $b=\lbrace b_{f},b_{in},b_{g},b_{o}\rbrace$ 是可学习的参数。 $[a, b]$ 表示向量串联拼接。

稀疏标准化特征融合

基于L₁稀疏正则化注意力学习机制，提出一种更有效的稀疏正则化特征融合方法，以区分正包中最显著的目标信息。

为学习到数据包D_i = {d_i1, d_i2, …,d_{in_i}}中每个实例的判别权重，隐藏状态向量集 H_i = [h_i1, h_i2, …, h_{in_i}]被输入到一个稀疏正则化的全连接层，输出得到一维稀疏的向量V_i=[v_i1, v_i2, …, v_{in_i}]，具体的计算公式如下：
$v_{ij}=\sigma(w_{c}^{T}h_{ij}+b_{c}),\quad j=1,\ldots,n_{i}.$
其中，v_ij表示D_i中第j个实例的权重，w_c和b_c分别表示全连接层的可学习权重和偏置。

之后，注意力权重上执行软收缩：
$\hat{v}_{ij}=\text{max}(v_{ij}-\lambda,0),\quad j=1,\ldots,n_{i}.$
其中， $\lambda$ 是稀疏正则化器，来控制注意力权重的稀疏程度。

基于softmax函数做出改进的、能得到更好稀疏注意力效果的归一化融合函数 $g(\cdot)$ ，得到归一化的稀疏注意力权重 $\hat{Z_{i}}$ :
$\hat{Z}_{ij}=g(\hat{v}_{ij})=\frac{\hat{v}_{ij}*\text{exp}(\hat{v}_{ij})}{\sum_{j=1}^{n_{i}}{\hat{v}_{ij}*\text{exp}(\hat{v}_{ij})}},\quad j=1,\ldots,n_{i}.$
最后，包D_i的融合特征(即突出目标的特征)表示为稀疏权重 $\hat{Z}_{i}=[\hat{z}_{i1},\hat{z}_{i1},\ldots,\hat{z}_{in_{i}}]$ 和深度实例特征 $S_{i}=\lbrace s_{i1},s_{i2},\dots,s_{in_{i}}\rbrace$ 的线性组合：
$m_{i}=\sum_{j=1}^{n_{i}}{\hat{Z}_{ij}*S_{ij}}.$

判别特征提升

连体网络（Siamese Network）可以解决训练样本不足引起的过拟合问题，并已广泛用于分类或目标检测任务。

Siamese neural network

连体神经网络（有时称为孪生神经网络）是一种人工神经网络，它是共享权重的两个编码网络，同时对两个不同的输入向量协同工作，以计算可比较的输出向量。在实际操作中，是同一个网络连续使用两次，即串行实现。通常，其中一个输出向量是预先计算的，从而形成一个与另一个输出向量进行比较的基线。

连体神经网络架构

Embedding

Embedding（嵌套）就是用一个低维的向量编码表示一个实例，这个Embedding向量的性质是能使距离相近的向量对应的相似的实例。上节中，从包D_i得到的深度表示 $S_{i}=\lbrace s_{i1},s_{i2},\dots,s_{in_{i}}\rbrace$ 就是各实例的Embeddings.

判别特征提升

正如上一节中提到的，我们采用了稀疏标准化特征融合方法来判别正包中最突出的目标信息，从负包中聚合主要的背景信息。因此，正包和负包的判别包嵌套m_i： $m_{i}=\sum_{j=1}^{n_{i}}{\hat{Z}_{ij}*S_{ij}}$ 能够明确地表示目标和非目标信息。

连体网络能够缩小了两个正包嵌套的距离（即正包对），相当于减小了目标特征之间的距离。同样地，增加正包和负包嵌套（即负包对）的距离，相当于增加了目标和非目标特征的间隔。

对于包对P_k = {D_i, D_j}，两个融合特征分别为包嵌套m_i和m_j，其相似性（距离）用欧几里得距离来计算：
$D_{k}=\|m_{i}-m_{j}\|_{2}.$
正包对的两个包嵌套之间的距离应当缩小，负包对的包嵌套之间的距离应当增大。由此，我们应用特征对比损失来实现上述特征相似性约束，对比损失表达式如下：
$L_{sim}=\sum^{K}_{k=1}{L_{k}D_{k}^{2}+(1-L_{k})\text{max}(t-D_{k},0)^{2}}.$
其中，t是表示包嵌套之间距离上界的阈值。如果负包对的欧式距离D_k大于阈值t，其在特征对比损失中将被设为0。总之，随着损失函数 $L_{sim}$ 的优化逼近于0，正包之间的特征距离减小趋近于0，正包与负包之间的特征距离增大趋近于t.

算法和优化

如本文开头的训练框架图中所示，包嵌套m_i最终还被馈送到用于标签预测的二分类器中：
$\hat{Y}_{i}=\sigma(w^{T}m_{i}+b)$
经典的二进制交叉熵损失用作分类损失：
$L_{cls}=-\sum^{K}_{k=1}{Y_{k}\text{log}(\hat{Y}_{k})+(1-Y_{k})\text{log}(1-\hat{Y}_{k})}.$
训练过程的损失函数包括 $L_{sim}$ 和 $L_{cls}$ 两部分，参数 $\gamma$ 是比例因子。
$L=\gamma L_{sim}+L_{cls}.$