whisper-stream:实时语音转文字转录工具
项目介绍
whisper-stream 是一个开源的bash脚本,它利用了OpenAI Whisper API 来实现实时语音输入转文字的功能。通过集成SoX库进行音频录制,它具备检测话音片段之间静默的功能。当系统检测到指定长度的静默时,该脚本会将音频转换为文字,从而让Whisper API能够像实现实时语音转文字一样工作。此外,用户还可以指定一个音频文件供Whisper进行转录。
转录完成后,文本会自动复制到系统的剪贴板中,以便立即使用,或者可以保存到指定的目录中作为文本文件。
项目技术分析
whisper-stream 主要采用以下技术实现其功能:
- OpenAI Whisper API:这是项目的核心,用于将语音转换为文字。
- SoX:用于音频录制和处理。
- Bash脚本:作为程序的运行框架,实现命令行交互和功能调用。
- 环境变量与命令行参数:提供灵活的配置方式,用户可以通过命令行参数或环境变量来配置API密钥和转录选项。
该项目适用于多种操作系统,并且可以很容易地通过Homebrew进行安装,这也体现了其良好的兼容性和便捷性。
项目技术应用场景
whisper-stream 在以下场景中特别有用:
- 实时会议记录:在会议中进行实时语音记录,方便后续整理和归档。
- 访谈转录:对访谈内容进行实时转录,加速内容生产和编辑。
- 教育辅助:教师可以将实时演讲内容转录为文字,方便学生复习和笔记。
- 语音命令处理:集成到语音控制系统中,实现语音命令的文本转换和解析。
项目特点
- 易用性:通过简单的命令行操作,用户可以轻松地开始转录过程。
- 灵活性:支持多种参数配置,满足不同用户的定制需求。
- 实时性:通过静默检测,接近实时地完成语音到文字的转换。
- 便捷性:转录结果可以自动复制到剪贴板,方便快速使用。
- 兼容性:支持多种操作系统,易于在不同环境中部署和使用。
以下是一个基于 whisper-stream 的使用案例,帮助读者更直观地理解其应用:
使用案例:实时会议记录
假设你是一名会议记录员,需要将会议内容实时转录为文字。以下是使用whisper-stream的步骤:
-
安装:使用Homebrew安装whisper-stream。
brew tap yohasebe/whisper-stream brew install whisper-stream
-
启动转录:在会议开始时,运行以下命令启动转录。
whisper-stream -v 2% -s 2 -d 0 -t your_openai_api_token
这里的
-v
和-s
参数分别用于设置最小音量阈值和静默长度,以防止错误的转录触发。-d 参数设置为0表示持续录音,而-t
参数用于提供OpenAI的API密钥。 -
转录结果:转录的文字会实时显示在命令行界面,并且自动复制到剪贴板中。
-
保存文件:如果需要保存文件,可以使用
-p
参数指定输出目录。
通过以上步骤,你可以在会议中轻松地实现语音到文字的实时转录。
总结而言,whisper-stream 是一个功能强大且易于使用的开源工具,能够帮助用户在不同场景下高效地完成语音转文字的任务。其高度的可定制性和兼容性使其在多种环境下都能发挥出色的作用。无论你是会议记录员、访谈转录者还是教育工作者,whisper-stream 都能为你提供便捷的服务。