工作中你会有这些情况吗,开会想要快速记录内容?想要导出视频的内容文本?想把音频转文字?
今天我们介绍的开源项目,可以免费进行视频/音频转录文字,也支持实时语音转文字,并且离线可用,帮助打工人提升效率,它就是:buzz
buzz 是什么
Buzz 是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。buzz目前支持Whisper、 Whisper.cpp、Faster Whisper、 Whisper 兼容的 Hugging Face 模型和OpenAI Whisper API。
Buzz目前的主要功能:
- 从麦克风实时语音转录文字、实时翻译
- 导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)
安装buzz
buzz的安装非常方便,各平台都有支持一键安装或下载离线包。离线包还是不小的,以mac为例,下载是380mb,安装后大概要1.3G左右。
macOS
通过brew安装:
css
代码解读
复制代码brew install --cask buzz
或者,下载并运行该Buzz-x.y.z.dmg文件。
Windows(要求Win10以上)
下载并运行该Buzz-x.y.z.exe文件。
Linux
arduino代码解读复制代码sudo apt-get install libportaudio2
sudo snap install buzz
安装完成后打开软件,界面非常非常的简洁。
使用 buzz
在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型的大小也不相同,在有条件的情况下,建议考虑中大型的模型。可以参考下表:
视频/音频转录:
- 单击“文件”菜单上的“导入媒体文件”(或工具栏上的“+”图标,或Command/Ctrl + O)。
- 选择音频或视频文件。
- 选择任务、语言和模型设置。
- 单击运行,开始任务。
- 当转录状态显示“已完成”时,双击该行(或选择该行并单击“⤢”图标)以查看结果。
如果选择比较大的模型,那速度就会比较慢。
实时转录:
- 点击麦克风图表,选择录音任务、语言、质量和麦克风。
- 单击“录制”。
注意:使用默认 Whisper 模型转录音频会占用大量资源。考虑使用 Whisper.cpp Tiny 模型来获得实时性能。
存储位置:
buzz使用到的模型会存储在本地,但是目前没看到修改存储位置的设置,当前存储位置如下:
Whisper 模型存储在~/.cache/whisper.
Whisper.cpp 模型存储在~/Library/Caches/Buzz (Mac OS)、~/.cache/Buzz(Unix) 或C:\Users\AppData\Local\Buzz\Buzz\Cache(Windows) 中。
Hugging Face模型存储在~/.cache/huggingface/hub.
总结
Buzz是款非常不错的语音转录工具,可以大大的提升工作效率,我总结一下它具有的特点:
- 高精度:基于 OpenAI 开源的强大机器学习模型 Whisper ,Buzz的识别精度很高
- 速度快:Buzz 的模型都是离线使用,因此转换速度很快,适合批量转换语音
- 跨平台:目前支持Windows /macOS / Linux
- 多语言:不仅支持中文,也支持很多个国家的语言,还能将结果翻译,但翻译只支持英文
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
资源分享
大模型AGI学习包
资料目录
- 成长路线图&学习规划
- 配套视频教程
- 实战LLM
- 人工智能比赛资料
- AI人工智能必读书单
- 面试题合集
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!

1.成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
2.视频教程
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩。
3.LLM
大家最喜欢也是最关心的LLM(大语言模型)
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!
