视听嘴唇生物识别(AV-LB)是一种新兴的跨听觉和视觉语音处理的生物识别技术。以前的工作主要集中在前端基于唇的特征工程与浅层统计后端模型相结合。在过去的十年里,卷积神经网络(CNN,或称ConvNet)在计算机视觉和语音处理任务中得到了广泛的应用,并取得了良好的性能。然而,由于缺乏大规模的公共AV-LB数据库,导致AV-LB任务的深度学习探索停滞不前。除了双视听流之外,视频流的一个基本要求是嘴唇周围的感兴趣区域(ROI)必须具有足够的分辨率。为此,我们使用现有的公共数据库编译了一个中等大小的数据库。使用该数据库,我们提出了一个基于深度学习的AV-LB基准,称为DeepLip1,由卷积视频和音频单峰模块以及多模式融合模块实现。我们的实验表明,DeepLip在上下文建模方面优于传统的嘴唇生物识别系统,与单峰系统相比,实现了超过50%的相对改进,在测试数据集上的等误差率分别为0.75%和1.11%
唇动预处理(center 96*96)
GitHub - DanielMengLiu/AudioVisualLip
对应paper:
DeepLip: A Benchmark for Deep Learning-Based Audio-Visual Lip Biometrics
面部追踪预训练模型(python 安装包可以调用做分割)
https://github.com/1adrianb/face-alignment/blob/master/face_alignment/api.py
面部追踪模型结构(可转onnx)
https://github.com/tkat0/PyTorch_BlazeFace/blob/master/blazeface/model.py
数据集 面部追踪数据集
WIDER FACE: A Face Detection Benchmark
嘴部追踪
GitHub - SummerSigh/ProjectBabble: An Opensource mouth tracking method for VR
tf开源动态检测库 常见losses和models