x-cmd mod | x whisper - 本地 AI 语音识别

介绍

whisper 模块基于 whisper.cpp 实现智能语音识别,能帮助用户将音频转为文本,解析音频文件以生成文本文件。
借助于 ffmpeg,whisper 模块还可以解析视频文件来生成字幕文件,或将字幕文件插入到视频文件中。
我们的 whisper 模块是开箱即用的,依赖于 env 模块,它能在您需要的时候自动帮您下载安装好 whisper.cpp 和 ffmpeg (在不需要 whisper.cpp 和 ffmpeg 的时候,您可以通 x env gc whispercpp ffmpeg 来卸载 whisper.cpp 和 ffmpeg )

在这里插入图片描述

模型管理

whisper.cpp 提供了 5 种模型:tiny,base,small,medium,large,它们的识别效果和大小依次增加,x-cmd 建议用户使用 base 以上的模型。

  1. 用户可以使用 x whisper model 命令进入交互式 UI 来查看所有可用模型,并可以通过回车键将选中的模型设置为默认模型。
  2. 支持模型导入、导出、删除等功能。

此外,该模块还提供了将字幕嵌入到视频中的功能: 用户可以使用 --srt 参数生成字幕文件,再通过 merge 命令将字幕文件嵌入到视频中。

使用语法

x whisper [OPTIONS] [SUB_COMMAND]

TIP

第一次使用的用户会自动下载 whisper.cpp, 若想卸载可以使用 x env gc whispercpp 命令

例子

交互式选择模型,并将音频文件识别成文字

x whisper <audio file>

使用 medium 模型进行音频识别

x whisper -m medium -f <audio file>

将结果保存到 test.srt 字幕文件

x whisper dictate --srt -o test <audio file>

将 srt 字幕嵌入到视频中

x whisper merge <srt file> <video file>

选项

名称描述
-f, --file [file dir]需要识别的音频文件路径
-m, --model [name]显式指定模型进行识别

子命令

名称描述
x whisper dictate音频识别成文字
x whisper model管理本地模型
x whisper merge将字幕嵌入到视频中

更多内容请查阅 : mod/whisper

转载请标明原文链接 :https://www.x-cmd.com/mod/whisper


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值