使用VAD将长语音分割的多段短语音

本文介绍了PPASR库中的VAD功能,它基于深度学习实现语音活动检测,能将长语音分割为多段短语音。通过几行Python代码,可以轻松获取活动语音的开始和结束位置。此外,PPASR还支持流式实时检测,适用于实时录音场景,能够在录音过程中检测语音活动状态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是YeAudio的一个小功能,这个功能是基于深度学习实现的。

使用

首先要安装YeAudio库。

python -m pip install yeaudio -i https://pypi.tuna.tsinghua.edu.cn/simple -U

使用如下,几行代码就可以获取活动语音的位置。这里要注意几点,首先是输入的数据必须是float32,然后是采样率必须是8000或者16000,其他采样率,例如16000的倍数应该也可以,但不保证准确率。

from yeaudio.audio import AudioSegment

audio_segment = AudioSegment.from_file('data/test.wav')

speech_timestamps = audio_segment.vad()
print(speech_timestamps)

输出结果如下,是一个列表,每个列表包含一个字典,字典的数据就是活动语音的开始位置和结束位置。

[{'start': 11808, 'end': 24032}, {'start': 26144, 'end': 55264}, {'start': 57888, 'end': 125408}]

流式实时检测

最新版本可以支持流式检测语音活动,在录音的时候可以试试检测是否停止说话,从而完成一些业务,如停止录音开始识别等。

from yeaudio.audio import AudioSegment
from yeaudio.streaming_vad import StreamingVAD

audio_seg = AudioSegment.from_file('data/test.wav')
data = audio_seg.samples

streaming_vad = StreamingVAD(sample_rate=audio_seg.sample_rate)

for ith_frame in range(0, len(data), streaming_vad.vad_frames):
    buffer = data[ith_frame:ith_frame + streaming_vad.vad_frames]
    state = streaming_vad(buffer)
    print("VAD state:", state)

实时输出检测结果:

VAD state: VADState.QUIET
VAD state: VADState.QUIET
VAD state: VADState.QUIET
VAD state: VADState.STARTING
VAD state: VADState.STARTING
VAD state: VADState.SPEAKING
VAD state: VADState.SPEAKING
VAD state: VADState.SPEAKING
······
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜雨飘零1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值