【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》_multi-scale transformer network for palm vein reco-CSDN博客

本文链接：https://blog.csdn.net/bryant_meng/article/details/147458885

在这里插入图片描述

[1]吴凯,沈文忠,贾丁丁,等.融合Transformer和CNN的手掌静脉识别网络[J].计算机工程与应用,2023,59(24):98-109.

文章目录

1、Background and Motivation
2、Related Work
3、Advantages / Contributions
4、Method
5、Experiments
6、Conclusion（own） / Future work

1、Background and Motivation

生物特征识别的重要性
掌静脉识别的优势
传统掌静脉识别方法的局限性

掌静脉识别流程包括手掌静脉图像的采集、图像预处理、特征提取、识别验证四个阶段。

为了进一步提升识别精度，本文设计了结合 Transformer Encoder 和 CNN 并运用扩大决策边界的损失函数 AAM-Loss（additive angular margin loss）的掌静脉特征编码识别网络 PVCodeNet。

2、Related Work

特征提取传统方法

基于结构特征的方法
基于子空间的方法
是基于纹理特征的方法

基于深度学习的特征提取

3、Advantages / Contributions

贡献：

提出新的掌静脉识别网络PVCodeNet
实现高精度识别
验证网络泛化性能

创新点

首次将Transformer Encoder应用于掌静脉识别
使用深度超参数化卷积（Do-Conv）
引入规一化的注意力机制（NAM）
使用扩大决策边界的损失函数（AAM-Loss）

4、Method

手掌关键点定位+ROI提取

在这里插入图片描述
选取食指与中指间隙 A、中指与无名指间隙 B 以及无名指与小指间隙 C 作为手掌关键点

L 设置为 20 个像素

图像增强

在这里插入图片描述
使用 CLAHE 对比度增强后，图像噪声也得到了增强，噪声对后续的掌静脉特征提取及匹配会产生影响，本文运用中值滤波图像去噪方法来降低图像噪声的干扰

在这里插入图片描述
在 resnet18 的基础上修改，网络结构由 1 个Transformer Encoder 模块和 4 个改进的 BasicBlock 组成

在这里插入图片描述

首次把 Transformer Encoder 模块应用于掌静脉识别任务中（Transformer Encoder拥有全局的感受野和矩阵并行运算的能力，本文把Transformer Encoder 应用于主干网络初始阶段进行特征提取可以快速获取全局的掌静脉特征信息，提取的特征信息更加充分和全面。）
使用改进的残差块 ImprovedBlock（本文在传统的卷积层基础上增加一个额外的深度卷积构成深度超参数化卷积Do-Conv，使网络呈现一种过参数化状态，增加了网络可学习的参数，因此提取出的静脉特征区分度更大，特征质量更高。）
使用扩大决策边界的损失函数 Additive Angular Margin Loss 取代 softmax

Transformer Encoder
在这里插入图片描述

在这里插入图片描述

ImprovedBlock

在这里插入图片描述

深度超参数化卷积 Do-Conv（Depthwise Over-parameterized Convolutional Layer）

核心思想：在训练阶段使用额外的深度卷积来增强传统的卷积层。具体来说，每个输入通道都与不同的二维卷积核进行卷积操作，这两个卷积的组合构成了一个过参数化结构，因为它增加了可学习的参数。然而，在推理阶段，这些额外的深度卷积会被折叠到传统的卷积层中，使得最终的计算量与没有过参数化的卷积层完全相同。

在这里插入图片描述

不同的是，Do-Conv 比传统卷积层 Conv 在训练时多了一次深度卷积，这样就会使网络呈现出一种过参数化状态，保证了足够的参数量，用更多的参数训练不但可以提升训练速度，而且可以使网络收敛到更好的参数组合使提取静脉特征更加具有区分性，尤其是对于纹理高度相似难以区分的困难样本提取出来的特征向量区分度更大。