Chaplin 实时无声语音识别工具使用指南

最新推荐文章于 2025-04-11 10:22:53 发布

裴锟轩Denise

最新推荐文章于 2025-04-11 10:22:53 发布

阅读量838

点赞数 10

本文链接：https://blog.csdn.net/gitblog_00226/article/details/147137105

版权

Chaplin 是一个实时无声语音识别（VSR）工具，它能够实时读取用户的嘴唇动作并将口型转换为文字。该工具完全在本地运行，依赖于在 Lip Reading Sentences 3（LRS3）数据集上训练的模型，作为 Auto-AVSR 项目的一部分。

首先，你需要克隆项目仓库到本地环境：

git clone https://github.com/amanvirparhar/chaplin.git
cd chaplin

接下来，下载所需的模型组件 LRS3_V_WER19.1 和 lm_en_subword。

将下载的压缩包解压，并将它们放置到相应的目录中：

chaplin/
├── benchmarks/
├── LRS3/
├── language_models/
├── lm_en_subword/
├── models/
├── LRS3_V_WER19.1/
├── ...

安装 ollama 并拉取 llama3.2 模型。安装 uv 工具。

运行以下命令启动程序：

sudo uv run --with-requirements requirements.txt --python 3.12 main.py config_filename=./configs/LRS3_V_WER19.1.ini detector=mediapipe

当摄像头馈送显示后，你可以按以下方式开始“录制”：

开始口型单词时，程序将在你的光标位置显示文字。再次按下相同的键停止录制。

要优雅地退出程序，请将焦点放在显示摄像头馈送的窗口上，然后按 q 键。

在这一部分，你可以探索如何在实际应用中使用 Chaplin。例如，你可以将其集成到辅助技术中，帮助听障人士或在不适合发声的环境中提供无声通信方式。

Chaplin 可以与以下类型的项目集成，以扩展其功能和适用性：

以上指南将帮助你快速上手并使用 Chaplin，探索其在无声通信领域的无限可能。