结合唇动信息的语音任务

视听嘴唇生物识别(AV-LB)是一种新兴的跨听觉和视觉语音处理的生物识别技术。以前的工作主要集中在前端基于唇的特征工程与浅层统计后端模型相结合。在过去的十年里,卷积神经网络(CNN,或称ConvNet)在计算机视觉和语音处理任务中得到了广泛的应用,并取得了良好的性能。然而,由于缺乏大规模的公共AV-LB数据库,导致AV-LB任务的深度学习探索停滞不前。除了双视听流之外,视频流的一个基本要求是嘴唇周围的感兴趣区域(ROI)必须具有足够的分辨率。为此,我们使用现有的公共数据库编译了一个中等大小的数据库。使用该数据库,我们提出了一个基于深度学习的AV-LB基准,称为DeepLip1,由卷积视频和音频单峰模块以及多模式融合模块实现。我们的实验表明,DeepLip在上下文建模方面优于传统的嘴唇生物识别系统,与单峰系统相比,实现了超过50%的相对改进,在测试数据集上的等误差率分别为0.75%和1.11%

唇动预处理(center 96*96)

GitHub - DanielMengLiu/AudioVisualLip

对应paper:

DeepLip: A Benchmark for Deep Learning-Based Audio-Visual Lip Biometrics

面部追踪预训练模型(python 安装包可以调用做分割)

https://github.com/1adrianb/face-alignment/blob/master/face_alignment/api.py

面部追踪模型结构(可转onnx)

https://github.com/tkat0/PyTorch_BlazeFace/blob/master/blazeface/model.py

数据集 面部追踪数据集

WIDER FACE: A Face Detection Benchmark

嘴部追踪

GitHub - SummerSigh/ProjectBabble: An Opensource mouth tracking method for VR

GitHub - deepanshu-Raj/AI-Proctoring-Framework: AI-Proctoring Framework runs in the background on the examinee’s machine, and tracks any kind of unwanted (Suspicious) activity of the candidate. Mouth Tracking, Blink Detection, Gaze Detection, Object Detection & Liveness Detection are few of the algorithms implemented in this Framework.

GitHub - momo7773/Eyeudio

tf开源动态检测库 常见losses和models

https://github.com/tensorflow/models/blob/4cd5dac797ce80b1463b23adc3dd2b30e14af446/research/object_detection/core/losses.py#L43

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值