语音切割,个人VAD (google 2019 论文翻译)

32 篇文章 101 订阅 ¥49.90 ¥99.00

论文:https://arxiv.org/pdf/1908.04284.pdf

题目:PERSONAL VAD: SPEAKER-CONDITIONED VOICE ACTIVITY DETECTION

摘要

在本文中,我们提出了“个人VAD”系统,该系统可以在帧级别检测目标说话者的语音活动。 该系统可用于对流语音识别系统的输入进行门控,使其仅为目标用户触发,这有助于降低计算成本和电池消耗。 我们通过训练以目标说话人嵌入或说话人验证分数为条件的类似VAD的神经网络来实现这一目标。 对于每帧,个人VAD输出三类的分数:非语音,目标说话者语音和非目标说话者语音。 通过我们的最佳设置,我们能够训练一个130KB的模型,该模型的性能优于基准系统,在基准系统中,单独训练的标准VAD和说话者识别网络相结合可以执行相同的任务。

1.介绍

在现代语音处理系统中,语音活动检测(VAD)通常位于其他语音组件(例如语音识别和说话者识别)的上游。 作为门控模块,VAD不仅通过丢弃非语音信号提高了下游组件的性能,而且由于其相对较小的尺寸,还大大降低了总体计算成本。
典型的VAD系统使用具有声学特征的帧级分类器为每个音频帧做出语音/非语音决策(例如,宽度为25ms,步长为10ms)。差的VAD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值