基于pytorch语音识别_说话人分割聚类错误率从15.8%到2.2%的蜕变：基于序列传导的语音识别和说话人分割聚类模型联合...

最新推荐文章于 2024-07-31 01:15:47 发布

黑是真谛

最新推荐文章于 2024-07-31 01:15:47 发布

阅读量1.2k

点赞数

文章标签：基于pytorch语音识别

本文链接：https://blog.csdn.net/weixin_33631305/article/details/112746520

版权

谷歌论文提出将语音识别和说话人分割聚类联合训练，通过序列传导模型，成功将词级别的说话人分割聚类错误率从15.8%降至2.2%。该方法结合声学和语言学特征，尤其在多说话人场景下效果显著，降低了传统方法中的中间步骤错误。

摘要由CSDN通过智能技术生成

在interspeech2019会议上，一篇名为《Joint Speech Recognition and Speaker Diarization via Sequence Transduction》的谷歌论文，又把说话人分割聚类技术提升到了一个新的阶段，成功的将语音识别技术和说话人分割聚类任务融合在一起，联合训练，不仅可以知道“什么时候说了什么”，最重要的是可以知道“谁在什么时候说了什么”。论文使用了大量的医患之间的对话语料进行实验，相比于传统的基线系统，该论文提出的方法将词级别的说话人分割聚类错误率从15.8%降到了2.2%，性能提升了7倍多。该论文的主要贡献是将联合语音识别和说话人分割聚类方法定义为序列传导问题，并且使用了循环神经网络变体进行了模型实现。

1.“谁在什么时候说了什么话”传统的系统方案

目前的语音应用在处理对话场景时，不仅仅需要识别“什么时候说了什么话”，而且需要确定“谁在什么时候说了什么话”。为了解决这个问题，很多传统的实现方案都是meger语音识别系统和说话人分割聚类系统的结果。这两个系统根据不同目标函数进行分别训练，毫无关联。传统的区分”谁在什么时候说了什么话”的方法，一般分为以下三个步。框架图如图1所示。
（1）使用语音识别系统将语音数据识别为文本；
（2）使用说话人分割聚类系统完成“谁在什么时候说了话”；
（3）最后将（1）和（2）得到的识别文本和说话人标签进行结合，确定”谁在什么时候说了什么话”。

图1 传统的语音识别和说话人分割聚类结合的方法。（图片来自于《Joint Speech Recognition and Speaker Diarization via Sequence Transduction》）

目前工业界最常用的说话人分割聚类方法就是首先将语音流切分成固定时间段，然后再对每一个分割段进行说话人标注。虽然在过去的很多年提取了很多不同的说话人分割聚类模型，但是大都是同一个模式：
（1）使用语音活动检测技术对语音进行静音和噪音去除；
（2）对语音通过固定的长度分割成段，然后提取声学特征，例如MFCC；
（3）利用提取的特征提取feature embedding,例如 i-vectors, x-vectors；
（4）根据提取到了ferature embedding，通过聚类技术将同一说话人聚合，

最低0.47元/天解锁文章

黑是真谛

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
基于pytorch语音识别_说话人分割聚类错误率从15.8%到2.2%的蜕变：基于序列传导的语音识别和说话人分割聚类模型联合...

在interspeech2019会议上，一篇名为《Joint Speech Recognition and Speaker Diarization via Sequence Transduction》的谷歌论文，又把说话人分割聚类技术提升到了一个新的阶段，成功的将语音识别技术和说话人分割聚类任务融合在一起，联合训练，不仅可以知道“什么时候说了什么”，最重要的是可以知道“谁在什么时候...
复制链接

扫一扫