On the Effectiveness of Vision Transformers for Zero-shot Face Anti-Spoofing
提出了利用Vision Transformer 预训练模型进行迁移学习,针对zero-shot 人脸活体检测任务。
说是迁移学习,实际只是做微调 。
说是zero-shot,但是模型方面并没有针对该任务做任何调整,是在评估时用zero-shot(即测试集包含训练集没给出的攻击方式)的评估方案。
模型图如下,就是An Image is Worth 16x16 Words Transformers for Image Recognition at Scale论文的翻版:
然后测试模型性能是在两个比较偏门的人类活体数据集上进行的。
作者提到会放预训练模型,到时候出来了再测试下效果。
总之,感觉是个水文,暂时pass掉吧