3.4k星星！开源超低延迟实时语音转文本STT，支持语音活动检测、唤醒词激活。

最新推荐文章于 2025-03-21 16:00:00 发布

AI_Charlotte

最新推荐文章于 2025-03-21 16:00:00 发布

阅读量583

点赞数 6

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_Charlotte/article/details/145265483

版权

今天介绍的是RealtimeSTT。

这个项目实际上是在Whisper的基础上做的，主要功能是STT，平时大家听ASR、语音转文本比较多一些，差不多的一个概念。

因为它把Whisper做了流式输出，速度很快，几乎是实时的了，还做了一些纠错机制

其实这个项目还是很有价值的，流式的语音转文本会让很多场景响应速度更快。

举个简单的例子，现在很多发布会都是大屏显示说话人的实时讲话，这其实就跟RealtimeSTT的功能差不多，如果再加上实时的翻译，是不是就更酷了。

一、项目简介：

RealtimeSTT是一个简单易用、低延迟的实时语音转文字项目。它能实时监听麦克风，将语音转为文本，适用于语音助手等需快速精准转换的应用。新增 AudioToTextRecorderClient 类，可自动启动并连接服务器（部分功能还在完善），CLI 接口也经过重写，使用 stt-server 启动服务器，stt 启动客户端。

二、功能特点：

语音活动检测：能自动检测用户何时开始和停止说话。
实时转录：实时将语音转换为文本。

唤醒词激活：可在检测到指定的唤醒词时激活。
AudioToTextRecorderClient 类：如果没有服务器在运行，该类会自动启动一个服务器并连接到它。接口与 AudioToTextRecorder 相同，便于在两者之间进行升级或切换。AudioToTextRecorder 的大部分参数和回调已在 AudioToTextRecorderClient 中实现，但服务器目前还无法处理并发请求。
CLI 接口：使用 stt-server 启动服务器，stt 启动客户端。

技术基础

语音活动检测：

WebRTCVAD：用于初始语音活动检测。
SileroVAD：用于更准确的验证。

语音转文本：

Faster_Whisper：用于即时（GPU 加速）转录。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。