介绍
whisper 模块基于 whisper.cpp 实现智能语音识别,能帮助用户将音频转为文本,解析音频文件以生成文本文件。
借助于 ffmpeg,whisper 模块还可以解析视频文件来生成字幕文件,或将字幕文件插入到视频文件中。
我们的 whisper 模块是开箱即用的,依赖于 env 模块,它能在您需要的时候自动帮您下载安装好 whisper.cpp 和 ffmpeg (在不需要 whisper.cpp 和 ffmpeg 的时候,您可以通 x env gc whispercpp ffmpeg
来卸载 whisper.cpp 和 ffmpeg )
模型管理
whisper.cpp 提供了 5 种模型:tiny,base,small,medium,large,它们的识别效果和大小依次增加,x-cmd 建议用户使用 base 以上的模型。
- 用户可以使用
x whisper model
命令进入交互式 UI 来查看所有可用模型,并可以通过回车键将选中的模型设置为默认模型。 - 支持模型导入、导出、删除等功能。
此外,该模块还提供了将字幕嵌入到视频中的功能: 用户可以使用 --srt
参数生成字幕文件,再通过 merge
命令将字幕文件嵌入到视频中。
使用语法
x whisper [OPTIONS] [SUB_COMMAND]
TIP
第一次使用的用户会自动下载 whisper.cpp, 若想卸载可以使用 x env gc whispercpp 命令
例子
交互式选择模型,并将音频文件识别成文字
x whisper <audio file>
使用 medium 模型进行音频识别
x whisper -m medium -f <audio file>
将结果保存到 test.srt 字幕文件
x whisper dictate --srt -o test <audio file>
将 srt 字幕嵌入到视频中
x whisper merge <srt file> <video file>
选项
名称 | 描述 |
---|---|
-f, --file [file dir] | 需要识别的音频文件路径 |
-m, --model [name] | 显式指定模型进行识别 |
子命令
名称 | 描述 |
---|---|
x whisper dictate | 音频识别成文字 |
x whisper model | 管理本地模型 |
x whisper merge | 将字幕嵌入到视频中 |
更多内容请查阅 : mod/whisper
转载请标明原文链接 :https://www.x-cmd.com/mod/whisper
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法