【资讯博客翻译】----通过序列转导实现联合语音识别和说话人二值化

最新推荐文章于 2024-02-28 20:29:24 发布

村小

最新推荐文章于 2024-02-28 20:29:24 发布

阅读量409

点赞数

分类专栏：资讯博客翻译

本文链接：https://blog.csdn.net/weixin_37590425/article/details/100108864

版权

资讯博客翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

[翻译]通过序列转导实现联合语音识别和说话人二值化

原文网址：https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html

作者：软件工程师劳伦特·埃尔·沙菲和研究科学家伊扎克·沙弗兰 发布时间： 2019年8月16日

能够识别说话人说了什么，或说话人分类(Speaker Diarization)，是通过自动化手段理解人类对话音频的关键一步。例如，在医生和病人之间的一次医学对话中，“Yes”由病人说出意外着对“是否经常服用心脏药物？”的回答是肯定的，而与一个医生反问的“Yes”存在本质不同。

传统的说话人分类(Convertional speaker diarization，SD)系统有两个阶段：

第一个阶段检测声音频谱的变化，以确定谈话中的说话人何时发生变化；
第二个阶段识别谈话中的单个说话人。

这种基本的多阶段方法已有近20年的历史 $^{[1]}$ ，在此期间，只有说话人检测组件得到了改进。

随着一种新的神经网络模型——递归神经网络传感器(RNN-T) $^{[2]}$ 的发展，我们现在有了一个合适的体系结构来提高说话人分类的性能，解决了我们最近提出的以前的分类系统 $^{[3]}$ 的一些局限性。其作为最近的一篇论文 “Joint Speech Recognition and Speaker Diarization via Sequence Transduction”,将在2019年的Interspeech发表,我们开发了一个基于RNN-T的说话人分类系统，在词分类错误率上的性能演示实现了约20%至2%的突破——约改善了10倍。

传统的说话人分类系统（Conventional Speaker Diarization System）

传统的说话人分类系统依赖于人们在声音上的差异来区分谈话中的说话人。虽然在单个阶段，使用简单的声学模型(例如高斯混合模型 $^{[4]}$ )可以相对容易地从音高中识别男性和女性，但说话人分类系统使用多阶段方法来区分音高比较相似的说话人。首先，基于检测到的语音特征，一种变化检测算法将对话分解为同质段，希望只包含一个说话者。然后，使用深度学习模型将每个说话者的片段映射到嵌入向量。最后，在集群阶段，将这些嵌入组合在一起，以便在整个对话中跟踪同一发言者。

在实际应用中，说话人检测系统与自动语音识别(ASR)系统并行运行，将两种系统的输出结合起来，将说话人标签归属到所识别的单词。

[外链图片转存失败(img-usOPwUHi-1566912532874)(C:\Users\cam_Experimental_env\AppData\Roaming\Typora\typora-user-images\1566910789913.png)]

这种方法有以下几个缺点：

首先，对话需要分成几个部分，每个部分只包含一个演讲者的演讲。否则，嵌入将不能准确地表示说话者。然而，在实践中，变化检测算法并不完善，导致每部分中可能包含多个说话人的语音。

第二，聚类阶段要求知道说话人的数量，并且对这种输入的准确性特别敏感。

第三，系统需要在用于估计语音签名（the voice signatures）的段大小和所需的模型精度之间做出非常困难的权衡。段越长，语音签名的质量越好，因为模型包含了更多关于说话者的信息。存在将简短的插入语归给错误说话者的风险，这可能会产生非常严重的后果，例如，在处理临床或财务对话时，肯定或否定需要被准确跟踪。

最后，传统的说话人识别系统没有一个简单的机制来利用在许多自然对话中特别突出的语言线索。比如，在临床会话中，“你多久吃一次药?”，最有可能是由医疗提供者，而不是病人说的。同样，“我们什么时候交作业?”最有可能是学生说的，而不是老师说的。语言线索也预示着说话者转换的高概率点，例如，在一个问题之后。

传统的说话者分类系统有一些意外，我们最近的博客文章 $^{[5]}$ 报道了其中一个例外。在该工作中，利用递归神经网络(RNN)的隐藏状态跟踪说话者，克服了聚类阶段的弱点。本文所报道的工作采用了一种不同的方法，并结合了语言线索。

一个语音识别和说话人检测的集成系统

我们开发了一个新颖简单的模型，它不仅无缝地结合了声音和语言线索，而且将说话人分类和语音识别结合到一个系统中。与单纯的等效识别系统相比，集成模型不会显著降低语音识别性能。

我们工作中的关键洞见是认识到RNN-T架构非常适合集成声学和语言线索。

RNN-T模型包括三个不同的网络:

(1) 转录网络(或编码器)，将声学帧映射到一个潜在的表示；

(2) 预测网络，基于先前的目标标签预测下一个目标标签由于先前的目标标签；

(3) 联合网络，结合前两个网络的输出，生成在该时间步长上的一组输出标签上的概率分布。

注意，在体系结构(下图)中有一个反馈循环，在这个循环中，以前识别的单词作为输入反馈回来，这允许RNN-T模型包含语言线索，比如问题的结尾。

$[外链图片转存失败(img-Tksx82Z6-1566912532876)(C:\Users\cam_Experimental_env\AppData\Roaming\Typora\typora-user-images\1566911757788.png)]$

在图形处理单元(GPU)或张量处理单元(TPU)等加速器上训练RNN-T模型并非易事，因为损失函数的计算需要运行正反向算法，其中包括输入和输出序列的所有可能对齐。这一问题最近在TPU友好实现的前向-后向算法 $^{[6]}$ 中得到了解决，该算法将问题重新定义为矩阵乘法序列。我们还利用了TensorFlow中的一个有效的RNN-T损失实现 $^{[7]}$ ，该实现允许模型开发的快速迭代，并训练了一个非常深的网络。

该集成模型可以像语音识别系统一样进行训练。培训参考文本包含演讲者所说的单词，后面跟着一个标记，该标记定义了演讲者的角色。例如，“When is the homework due?”<student>,“I expect you tp turn them in tomorrow before class”<teacher>。一旦使用音频和相应的参考文本示例对模型进行训练，用户就可以输入对话的记录，并期望看到类似形式的输出。我们的分析表明，来自RNN-T系统的改进影响了所有类型的错误，包括短的说话者转换、单词边界处的分裂、重叠语音时不正确的说话者分配以及较差的音频质量。此外，与传统系统相比，RNN-T系统在会话中表现出一致的性能，每次会话的平均错误率的方差显著降低。

在这里插入图片描述

此外，该集成模型还可以预测生成更易于阅读的ASR转录本所需的其他标签。例如，我们已经能够使用适当匹配的训练数据成功地使用标点符号和大写符号改进我们的成绩单。与之前的模型相比，我们的输出具有更低的标点和大写错误，这些模型是在ASR之后单独训练和添加的后处理步骤。

该模型现已成为我们理解医学会话项目的标准组件，并在我们的非医学语音服务中得到更广泛的应用。

致谢

我们要感谢哈根·索尔托，没有他的贡献，这项工作是不可能完成的。这项工作是与谷歌大脑和语言团队合作完成的。

参考文献

[1] Audio segmentation, classification and clustering in a broadcast news task https://ieeexplore.ieee.org/document/1202280

[2] Sequence Transduction with Recurrent Neural Networks https://arxiv.org/abs/1211.3711

[3] Accurate Online Speaker Diarization with Supervised Learning https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

[4] 高斯混合模型维基百科 https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model

[5] Accurate Online Speaker Diarization with Supervised Learning

[6] Improving the efficiency of forward-backward algorithm using batched computation in TensorFlow https://ieeexplore.ieee.org/document/8268944

[7] Efficient Implementation of Recurrent Neural Network Transducer in Tensorflow https://ieeexplore.ieee.org/document/8639690

村小

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【资讯博客翻译】----通过序列转导实现联合语音识别和说话人二值化

[翻译]通过序列转导实现联合语音识别和说话人二值化原文网址：https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html作者：软件工程师劳伦特·埃尔·沙菲和研究科学家伊扎克·沙弗兰 2019年8月16日能够识别说话人说了什么，或说话人分类(Speaker Diarization)，是通过自动化手段...
复制链接

扫一扫