SubFix 项目使用教程
1. 项目介绍
SubFix 是一个高效的基于 Web 的音频字幕编辑和多语言自动标注工具。它允许用户实时查看和编辑音频字幕,支持合并、分割、删除和编辑字幕。此外,SubFix 还支持自动语音标注,利用 modelscope 和 whisper 进行多语言文本标注。目前,modelscope 支持中文、英文、日文、德文和俄文等语言的自动标注,而 whisper 则支持几乎所有语言。
2. 项目快速启动
安装依赖
首先,确保你使用的 Python 版本在 3.9 以上。然后执行以下命令安装依赖:
# 使用 Conda 创建环境
conda create -n modelscope python=3.9
conda activate modelscope
# 在 Linux 环境下安装依赖
sudo apt install build-essential
sudo apt install ffmpeg
sudo apt install libsox-dev
# 克隆项目并安装依赖
git clone https://github.com/cronrpc/SubFix.git
cd SubFix
pip install "modelscope[audio_asr]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install -e .
启动 SubFix
安装完成后,你可以通过以下命令启动 SubFix:
# 启动 Web UI
subfix webui --load_list demo_list --webui_language zh --force_delete True
3. 应用案例和最佳实践
案例1:音频字幕编辑
假设你有一个音频文件 demo.wav
,并且你已经生成了一个字幕文件 demo_list
,你可以通过以下步骤进行字幕编辑:
- 启动 SubFix Web UI:
subfix webui --load_list demo_list
- 在 Web UI 中,你可以实时查看和编辑字幕,支持合并、分割、删除和修改字幕内容。
案例2:自动语音标注
如果你需要对音频文件进行自动语音标注,可以使用以下命令:
# 使用 modelscope 进行自动标注
subfix create modelscope --source_dir origin --language ZH
# 使用 whisper 进行自动标注
subfix create whisper --source_dir origin --language ZH
4. 典型生态项目
anyvoiceai/MassTTS
MassTTS 是一个开源的文本到语音合成项目,可以与 SubFix 结合使用,生成高质量的语音合成数据集。
fishaudio/Bert-VITS2
Bert-VITS2 是一个基于 BERT 的语音合成模型,可以与 SubFix 结合使用,进行语音数据的预处理和标注。
openai/whisper
whisper 是一个开源的语音识别模型,支持多语言识别,可以与 SubFix 结合使用,进行自动语音标注。
通过这些生态项目的结合,SubFix 可以构建一个完整的语音数据处理和标注工作流,适用于各种语音相关的应用场景。