whisper-stream：实时语音转文字转录工具

费津钊Bobbie

于 2025-04-02 11:25:08 发布

阅读量1.1k

点赞数 7

本文链接：https://blog.csdn.net/gitblog_00651/article/details/146939307

版权

whisper-stream：实时语音转文字转录工具

whisper-stream A bash script that uses the OpenAI Whisper API to transcribe continuous spoken audio into text 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-stream

项目介绍

whisper-stream 是一个开源的bash脚本，它利用了OpenAI Whisper API 来实现实时语音输入转文字的功能。通过集成SoX库进行音频录制，它具备检测话音片段之间静默的功能。当系统检测到指定长度的静默时，该脚本会将音频转换为文字，从而让Whisper API能够像实现实时语音转文字一样工作。此外，用户还可以指定一个音频文件供Whisper进行转录。

转录完成后，文本会自动复制到系统的剪贴板中，以便立即使用，或者可以保存到指定的目录中作为文本文件。

项目技术分析

whisper-stream 主要采用以下技术实现其功能：

OpenAI Whisper API：这是项目的核心，用于将语音转换为文字。
SoX：用于音频录制和处理。
Bash脚本：作为程序的运行框架，实现命令行交互和功能调用。
环境变量与命令行参数：提供灵活的配置方式，用户可以通过命令行参数或环境变量来配置API密钥和转录选项。

该项目适用于多种操作系统，并且可以很容易地通过Homebrew进行安装，这也体现了其良好的兼容性和便捷性。

项目技术应用场景

whisper-stream 在以下场景中特别有用：

实时会议记录：在会议中进行实时语音记录，方便后续整理和归档。
访谈转录：对访谈内容进行实时转录，加速内容生产和编辑。
教育辅助：教师可以将实时演讲内容转录为文字，方便学生复习和笔记。
语音命令处理：集成到语音控制系统中，实现语音命令的文本转换和解析。

项目特点

易用性：通过简单的命令行操作，用户可以轻松地开始转录过程。
灵活性：支持多种参数配置，满足不同用户的定制需求。
实时性：通过静默检测，接近实时地完成语音到文字的转换。
便捷性：转录结果可以自动复制到剪贴板，方便快速使用。
兼容性：支持多种操作系统，易于在不同环境中部署和使用。

以下是一个基于 whisper-stream 的使用案例，帮助读者更直观地理解其应用：

使用案例：实时会议记录

假设你是一名会议记录员，需要将会议内容实时转录为文字。以下是使用whisper-stream的步骤：

安装：使用Homebrew安装whisper-stream。

brew tap yohasebe/whisper-stream
brew install whisper-stream

启动转录：在会议开始时，运行以下命令启动转录。
```
whisper-stream -v 2% -s 2 -d 0 -t your_openai_api_token
```
这里的 -v 和 -s 参数分别用于设置最小音量阈值和静默长度，以防止错误的转录触发。-d 参数设置为0表示持续录音，而 -t 参数用于提供OpenAI的API密钥。
转录结果：转录的文字会实时显示在命令行界面，并且自动复制到剪贴板中。
保存文件：如果需要保存文件，可以使用 -p 参数指定输出目录。