3.4k星星!开源超低延迟实时语音转文本STT,支持语音活动检测、唤醒词激活。

今天介绍的是RealtimeSTT。

这个项目实际上是在Whisper的基础上做的,主要功能是STT,平时大家听ASR、语音转文本比较多一些,差不多的一个概念。

因为它把Whisper做了流式输出,速度很快,几乎是实时的了,还做了一些纠错机制

其实这个项目还是很有价值的,流式的语音转文本会让很多场景响应速度更快。

举个简单的例子,现在很多发布会都是大屏显示说话人的实时讲话,这其实就跟RealtimeSTT的功能差不多,如果再加上实时的翻译,是不是就更酷了。

一、项目简介:

RealtimeSTT是一个简单易用、低延迟的实时语音转文字项目。它能实时监听麦克风,将语音转为文本,适用于语音助手等需快速精准转换的应用。新增 AudioToTextRecorderClient 类,可自动启动并连接服务器(部分功能还在完善),CLI 接口也经过重写,使用 stt-server 启动服务器,stt 启动客户端。

二、功能特点:

  1. 语音活动检测:能自动检测用户何时开始和停止说话。

  2. 实时转录:实时将语音转换为文本。

    唤醒词激活:可在检测到指定的唤醒词时激活。

  3. AudioToTextRecorderClient 类:如果没有服务器在运行,该类会自动启动一个服务器并连接到它。接口与 AudioToTextRecorder 相同,便于在两者之间进行升级或切换。AudioToTextRecorder 的大部分参数和回调已在 AudioToTextRecorderClient 中实现,但服务器目前还无法处理并发请求。

  4. CLI 接口:使用 stt-server 启动服务器,stt 启动客户端。

技术基础

语音活动检测:

  • WebRTCVAD:用于初始语音活动检测。

  • SileroVAD:用于更准确的验证。

语音转文本:

  • Faster_Whisper:用于即时(GPU 加速)转录。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值