2022,SCI
(Authentication这个词应当是鉴别的意思,那和recognition、identification识别本应是有区别的,起码在biometric里应是有区别的,但正文讲的其实就是识别)
引言
梳理了相当多的FV背景
相关工作
FV Authentication
传统滤波器方法和DL方法(在且仅在传统方式里强调了ROI,DL是不需要ROI吗?)
当前的一些sota
【35】轻量化,双流网络,mini-ROI
【36】预训练,蒸馏学习
【37】自编码器
【40】联合注意力
【41】引入加权局部梯度编码WLGC的CNN处理三模态
【42】通道注意力,中心损失
ViT
还不错的各自ViT的综述
方法
整体
4个block作为主干,后接中心损失和NLL损失(实际就是交叉熵吧)
的匹配+分类训练
每个block包括如下4部分
Conditional Position Embedding
传统几种位置编码的痛点在于和输入token蕴含的信息无关
具体提出的是一个将上层输进来的patch图块序列先还原成图像确定位置联系,经过一个映射后再更新成patch序列,从而能够聚合邻居的信息
Expansion Token Embedding and the SA Mechanism
主要是因为对于FV来说patch里的局部纹理信息是此领域的关键,所以对每个patch套了一些MLP更新它的嵌入token
The product of Q and K is normalized by a temperature factor (1/√k) to avoid being one hot after the lateral softmax calculation [15], [43], [60]
关于SA的公式解释提到1/√k是通过这样一个温度因子(什么鬼?没搜到啊)
归一化来避免横向softmax后成为one hot编码(why?可能需要再复习一下基本的transformer论文)
Local Information-Enhanced FFN
ViT重视全局信息,这边不适于FV,因为FV的信息基本是靠像素间、或者patch间(那还不是超像素图块)
的灰度差异体现的,这也就是纹理信息
于是有些像【48】就提出将序列晶格化来增强局部信息,本文是基于这个改进了前馈层
Expansion-Less Mechanism
金字塔结构放缩每一层的token序列长度来降低复杂度,同时提取多尺度的特征从而得到全局信息(本来想说有点图池化的感觉,但更不如说是下采样吧)
实验
数据集
9种FV数据集
实验设置
探针与模板的匹配识别,所以本身还是EER的性能指标,同时引入 TAR@FAR = 0.01说这样更有利于实际应用的直观参考
4种ViT上的实验
(这里的图表蛮适合参考的)
同时评估了4种ViT的参数量和浮点计算量
消融实验
与其他sota的对比
(只能说困在传统方法蛮久了,才知道FV的DLsota也不少了)
(不过这里应该作者没有去复现这些方法,而是直接拿人家论文里的结果来对比,因为有些模型只在一个数据集上做过实验,这里的表格中它对应其他的数据集就没有实验结果)
we can see that there are quite a few vacant values, which are not conducive to the performance comparison.
(这就很扯淡,你的结果已经不如已有的实验了,那些空白未做的实验又有什么影响,做出来不论比你好还是比你差都没啥区别啊)
总结
下一步计划
1.轻量化,继续减少参数(但是本质上靠linear的transformer有必要去纠结参数量吗)
2.多组联合训练(其实还是依赖于大规模数据集,但是biometric基本上就是不像其他CV领域那样丰富,因为隐私安全、姿态差异对DL来说没啥影响之类的原因吧就是类内样本极少。人脸啥的好歹还能有表情、遮挡啥的增加一些数据的复杂性,咱这手指纹理是真的饱和)
————————————————
(有些语法错误和排版偏差,但只能说是瑕不掩瑜,整篇文章说的太好了,看着很舒服,内容也很充实)