Chaplin 实时无声语音识别工具使用指南
1. 项目介绍
Chaplin 是一个实时无声语音识别(VSR)工具,它能够实时读取用户的嘴唇动作并将口型转换为文字。该工具完全在本地运行,依赖于在 Lip Reading Sentences 3(LRS3)数据集上训练的模型,作为 Auto-AVSR 项目的一部分。
2. 项目快速启动
克隆项目仓库
首先,你需要克隆项目仓库到本地环境:
git clone https://github.com/amanvirparhar/chaplin.git
cd chaplin
下载模型组件
接下来,下载所需的模型组件 LRS3_V_WER19.1 和 lm_en_subword。
解压并放置模型组件
将下载的压缩包解压,并将它们放置到相应的目录中:
chaplin/
├── benchmarks/
├── LRS3/
├── language_models/
├── lm_en_subword/
├── models/
├── LRS3_V_WER19.1/
├── ...
安装依赖
安装 ollama 并拉取 llama3.2 模型。安装 uv 工具。
运行程序
运行以下命令启动程序:
sudo uv run --with-requirements requirements.txt --python 3.12 main.py config_filename=./configs/LRS3_V_WER19.1.ini detector=mediapipe
当摄像头馈送显示后,你可以按以下方式开始“录制”:
- 在 Mac 上按
option
键 - 在 Windows/Linux 上按
alt
键
开始口型单词时,程序将在你的光标位置显示文字。再次按下相同的键停止录制。
要优雅地退出程序,请将焦点放在显示摄像头馈送的窗口上,然后按 q
键。
3. 应用案例和最佳实践
在这一部分,你可以探索如何在实际应用中使用 Chaplin。例如,你可以将其集成到辅助技术中,帮助听障人士或在不适合发声的环境中提供无声通信方式。
- 辅助沟通:为听障人士提供一种新的沟通方式。
- 隐蔽通信:在需要保持静默的环境中,如图书馆或剧院,实现无声交流。
4. 典型生态项目
Chaplin 可以与以下类型的项目集成,以扩展其功能和适用性:
- 自然语言处理(NLP)框架:集成到 NLP 框架中,以提高语音识别的准确性和效率。
- 智能助理:开发智能助理应用,利用 Chaplin 实现实时无声交互。
以上指南将帮助你快速上手并使用 Chaplin,探索其在无声通信领域的无限可能。