结合唇动信息的语音任务

Eva会上树

于 2024-04-01 14:19:53 发布

阅读量503

点赞数 4

文章标签： python 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eva_in_tree/article/details/136208268

版权

视听嘴唇生物识别（AV-LB）是一种新兴的跨听觉和视觉语音处理的生物识别技术。以前的工作主要集中在前端基于唇的特征工程与浅层统计后端模型相结合。在过去的十年里，卷积神经网络（CNN，或称ConvNet）在计算机视觉和语音处理任务中得到了广泛的应用，并取得了良好的性能。然而，由于缺乏大规模的公共AV-LB数据库，导致AV-LB任务的深度学习探索停滞不前。除了双视听流之外，视频流的一个基本要求是嘴唇周围的感兴趣区域（ROI）必须具有足够的分辨率。为此，我们使用现有的公共数据库编译了一个中等大小的数据库。使用该数据库，我们提出了一个基于深度学习的AV-LB基准，称为DeepLip1，由卷积视频和音频单峰模块以及多模式融合模块实现。我们的实验表明，DeepLip在上下文建模方面优于传统的嘴唇生物识别系统，与单峰系统相比，实现了超过50%的相对改进，在测试数据集上的等误差率分别为0.75%和1.11%

唇动预处理（center 96*96）

GitHub - DanielMengLiu/AudioVisualLip

对应paper：

DeepLip: A Benchmark for Deep Learning-Based Audio-Visual Lip Biometrics

面部追踪预训练模型（python 安装包可以调用做分割）

https://github.com/1adrianb/face-alignment/blob/master/face_alignment/api.py

面部追踪模型结构（可转onnx）

https://github.com/tkat0/PyTorch_BlazeFace/blob/master/blazeface/model.py

数据集面部追踪数据集

WIDER FACE: A Face Detection Benchmark

嘴部追踪

GitHub - SummerSigh/ProjectBabble: An Opensource mouth tracking method for VR

GitHub - deepanshu-Raj/AI-Proctoring-Framework: AI-Proctoring Framework runs in the background on the examinee’s machine, and tracks any kind of unwanted (Suspicious) activity of the candidate. Mouth Tracking, Blink Detection, Gaze Detection, Object Detection & Liveness Detection are few of the algorithms implemented in this Framework.

GitHub - momo7773/Eyeudio

tf开源动态检测库常见losses和models

https://github.com/tensorflow/models/blob/4cd5dac797ce80b1463b23adc3dd2b30e14af446/research/object_detection/core/losses.py#L43

博客等级

码龄6年

9
原创

17
点赞

41
收藏

47
粉丝

关注

私信

热门文章

最新评论

常见二阶滤波器的配置 python
CSDN-Ada助手: 恭喜您撰写第9篇博客！非常高兴看到您坚持不懈地创作，并分享关于常见二阶滤波器的配置的内容。您的博客对于那些对于Python感兴趣的读者来说肯定是非常有价值的。在下一步的创作中，我建议您继续探索和分享与滤波器相关的内容。例如，您可以深入探讨不同类型的滤波器及其在实际应用中的效果，或者介绍一些高级的滤波器配置技巧。这样可以进一步丰富读者的知识，并加深他们对滤波器的理解。再次恭喜您，并期待您未来更多的精彩创作！
音频数据拼接
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题为“音频数据拼接”。我对您持续创作的努力表示赞赏。在这篇博客中，您对音频数据拼接进行了探讨，这是一个很有意义的话题。我觉得您在解释拼接过程时非常清晰，让读者能够轻松理解。对于下一步的创作建议，我认为您可以考虑深入探讨音频数据拼接的应用场景，或是分享一些实际案例，这样读者可以更好地理解如何将这个技术应用到实际项目中。当然，这只是一个建议，您对其他相关话题的探索也是非常值得期待的。再次恭喜您的持续创作，期待您未来更多精彩的博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
Microsoft Visual C++ 14.0 is required解决方案（win10安装PyPESQ库避雷！！！）
沐汐子儿: 感谢你，我就适合这种简单直接的操作，一次成功。安装慢了一点，但下载秒下，安装大概十几分钟。
Microsoft Visual C++ 14.0 is required解决方案（win10安装PyPESQ库避雷！！！）
46684220: 安装好就行了嘛老哥需要配置吗
Microsoft Visual C++ 14.0 is required解决方案（win10安装PyPESQ库避雷！！！）
静繇: 这个方法可以的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。