（IS 19）Feature exploration for almost zero-resource ASR-free keyword spotting using a multilingual b

最新推荐文章于 2024-06-28 07:30:00 发布

IMU_Pandade

最新推荐文章于 2024-06-28 07:30:00 发布

阅读量433

点赞数

本文链接：https://blog.csdn.net/Pandade520/article/details/105594610

版权

论文翻译专栏收录该内容

36 篇文章 3 订阅

订阅专栏

会议：INTERSPEECH 2019
论文：Feature exploration for almost zero-resource ASR-free keyword spotting using a multilingual bottleneck extractor and correspondence autoencoders
作者：Raghav Menon, Herman Kamper, Ewald van der Westhuizen, John Quinn, Thomas Niesler

Abstract

我们比较了在资源几乎为零的情况下用于引导关键字发现（KWS）时动态时间规整（DTW）的功能。这种可迅速部署的系统旨在以资源严重不足的语言支持联合国在非洲部分地区的人道主义救济工作。我们的目标是确定在此类环境中可以提供可接受的KWS性能的声学特征。作为受监管的资源，我们将自己限制在一个很小的，易于获取且独立编译的孤立关键字集中。对于特征提取，将对使用资源丰富的域外语言进行训练的多语言瓶颈特征（BNF）提取器与对极为稀疏的域内数据进行训练的对应自动编码器（CAE）集成在一起。与基线MFCC相比，BNF和CAE功能本身显示出绝对性能提高了2％以上。但是，通过将BNF用作CAE的输入，可以实现更好的性能，与MFCC相比，ROC AUC的绝对绝对值提高了11％以上，而两种评估语言（英语和卢干达语）在前十名中的检索量则翻了两倍。我们得出结论，将BNF与CAE集成在一起，可以利用大量的域外资源和稀疏的域内资源来改善无ASR的关键字查找。

8. Conclusion

我们研究了在几乎为零资源的情况下使用不同的神经网络功能来改善无ASR的基于DTW的关键字发现的情况。唯一使用的标签数据是少数孤立的关键字话语。使用多语言瓶颈网络（BNF），堆叠式自动编码器（AE）和对应自动编码器（CAE）提取特征。我们还考虑了将它们组合在一起，用BNF（而不是MFCC）给AE和CAE供料。通过对BNF进行培训的CAE可获得最佳性能。该模型将资源丰富的域外语言中的标记数据的优势与可用于极为稀疏的域内数据的技术相结合。另一个有趣的发现是，在缺少训练BNF提取器的多语言资源的情况下，在MFCC上训练的CAE的功能可以产生可比的性能。未来的工作包括将该模型集成到我们更大的关键字发现框架中[6]，并将其应用于诸如索马里语，Rutooro和Lugbara之类的语言，这些语言将在接下来将要部署该系统的地区使用。

1. Introduction

在乌干达，互联网基础设施通常发展不佳，无法使用社交媒体来衡量情绪。取而代之的是，使用社区广播电台的脱口秀节目来表达意见和关注。在联合国（UN）试点的一个项目中，已经开发了无线电浏览系统来监视这种广播节目[1、2]。目前，这些系统正在积极，成功地支持组织的救济和发展计划。但是，已部署的无线电浏览系统使用自动语音识别（ASR），因此高度依赖于目标语言中大量转录语音语料的可用性。当需要快速干预时，这已被证明是一个严重的障碍，因为这种语料库的开发总是很耗时的。

在常规的关键词发现系统中，其中在语音数据库中搜索一组关键词，ASR用于生成晶格，然后依次搜索是否存在关键词[3,4]。在无法使用ASR且无法开发ASR的资源受限的环境中，无ASR关键字发现方法变得有吸引力，因为这些方法是在没有大量标记数据的情况下开发的[5-10]。一种无ASR关键字发现的方法是扩展按示例查询（QbE），其中搜索查询是作为音频而不是书面关键字提供的。可以通过使用动态时间规整（DTW）在搜索查询和搜索集合中的发音之间进行直接匹配来执行QbE [11-14]。这种方法使用许多带标签的口语关键词实例作为模板。每个模板都用作基于DTW的QbE的查询。由于每个模板的类别都是已知的，因此可以汇总每个示例QbE结果，以确定某个关键字是否以特定发音出现。这种方法的优点是只需要一小套带标签的关键字，而无需像基于ASR的关键字发现那样使用大的转录语料库[6,7]。

最近对零资源QbE的兴趣促使研究人员考虑使用各种功能[15-21]。其中，多语言瓶颈特征（BNF）提取器经过资源丰富但域外语言的培训，已证明可以改善MFCC的性能[7,22-30]。

我们的目标是通过结合使用资源丰富的语言中的标记资源来学习功能的优势，以及对资源稀少的目标语言中极为稀疏的标记数据进行微调的优势，来改善基于DTW的关键字定位。为了对目标数据进行微调，我们使用了对应自动编码器（CAE），该模型最初是为零资源设置而开发的，其中只有未标记的数据可用[21,31]。作为目标语言数据，我们使用少量可以轻松快速收集的带标签的隔离关键字。这些关键字实例不构成无线电脱口秀培训和评估数据的一部分，因此可以认为是体外补充数据。通过学习同一关键字类型的替代发音的所有可能组合之间的映射，CAE可以学会在捕获诸如字词标识等方面时，忽略对关键字不常见的方面，例如说话者，性别和频道。我们的工作建立在[22,23]中建立的思想基础上，其中CAE使用大量的内在，地面真实单词对对BNF进行了训练，其内在评价优于其他方法。但是，当使用自动发现的词段时，这种改进并不能保持一致，在这种情况下，CAE培训是完全不受监督的。相反，我们在这里表明，当对少量的体外收集关键字实例进行微调时，即在有监督的情况下，可以通过将BNF与CAE结合来获得一致的改进。

我们针对MFCC和BNF对CAE功能进行了基准测试，结果表明，当在BNF之上训练CAE时，可以获得最佳的关键字发现结果。这表明多语言特征提取和目标语言微调可以互补。我们用两种语言评估我们的方法：英语，它是实验的代理语言；卢甘达语是目前对人道主义救济工作感兴趣的资源匮乏的语言。

2. Radio browsing system

图1的上半部分显示了现有的联合国无线电浏览系统，它使用ASR解码音频并生成用于搜索关键字的晶格。人工分析人员对检测到的关键字进行过滤，并将其元数据编译为结构化，可分类和可搜索的格式。无ASR的系统（下半部分）通过直接在输入音频中检测关键字的出现来绕过ASR和晶格搜索[6,7]。由于存在人工分析人员，因此可以容纳较高的错误肯定关键词发现率，并且整个系统的输出在连续几个月的成功运行中一直处于成功状态。文献[2]中对人类分析者的角色和发现的感兴趣的话题进行了更详细的讨论。
在这里插入图片描述

3. Data

在两个单独的实验中，我们使用了23小时的南非广播新闻（SABN）英语语料库和9.6小时的卢干达电话谈话语音语料库作为搜索数据。由于转录可用于这些数据集，因此可以通过实验评估系统性能。但是，在所有其他方面，我们认为数据是未转录的。英文是我们可以进行广泛评估的代理，而卢干达语的实现是该系统在真正少资源的语言中的实际应用。表1显示了如何将语料库分为训练集，开发集和测试集。
在这里插入图片描述
为了训练英语关键词发现者，我们使用了一个由40个独立的关键词组成的小型独立语料库，每个关键词至少由24位南非讲者（男性12位，女性12位）说出一次。结果集1160个孤立的关键字语音代表英语关键字发现者用于训练的唯一带标签的域内数据。 SABN数据集没有说话者重叠，后者仅被视为搜索数据。

为了训练Luganda关键字搜寻器，我们使用由18个独立关键字组成的小型独立语料库，这些关键字由各种男性和女性说者在不同的录制条件下发出。在对录音进行质量控制后，每个关键字类型保留大约32种发音。产生的603个隔离的关键字话语集代表了我们的关键字搜寻器用于训练的唯一带标签的域内数据。 Luganda Talk广播数据集没有说话者重叠，该数据仅被视为搜索数据。保留了语料库发育中频率高于10的七个关键字类型，以针对发育集进行评估。这样做是为了避免在计算指标时由于非常低的频率和零频率的关键字而导致的错误。对于测试集，使用了完整的关键字集进行评估。

这两种语言的查询和搜索数据集之间的不匹配是故意的，因为它反映了无线电浏览系统的操作设置。

4. Dynamic time warping-based keyword spotting

当只有几个孤立的关键字示例可用时，动态时间规整（DTW）是一种合适的关键字检测方法，因为它只需要一个音频模板。 DTW通过迭代扭曲相对时间轴直到找到最佳匹配，来对齐表示为特征向量序列的两个时间序列。

对于基于DTW的关键字发现，将为关键字示例和要在其中检测关键字的搜索话语提取特征。在我们直接的实现中，关键字示例在搜索语音中逐渐滑动，并且在每个步骤中，DTW都会计算关键字与对齐中的语音部分之间的对齐成本。使用3帧的步长，确定每个搜索话语的总体最佳对齐方式，并将其作为一个得分，指示该搜索话语包含关键字的可能性。由于我们有多个相同关键字类型的示例，因此在所有相同关键字类型的模板中使用了最佳分数。通过对该分数应用适当的阈值，可以对每个搜索话语中关键字的存在与否做出决定。已经提出了更完善的基于DTW的搜索方法[11-14]，主要是为了提高效率，但是在这里，我们将自己局限于这种简单的实现。未来的工作将考虑更高级的匹配方法。

5. Neural network feature extraction

我们针对基于DTW的关键字搜索器研究了不同类型的输入功能。尽管转录的域内数据难以编译，耗时且昂贵，但是未转录的域内语音音频数据更容易获得大量。我们调查了自动编码器和对应自动编码器的使用，以利用这种未转录的数据。后者需要使用目标语言的一组稀疏标记示例。另外，尽管可能无法获得大量转录的域内语音数据，但是对于几种资源丰富的语言，确实存在大量带注释的语音资源。这些数据集可用于训练多语言瓶颈特征提取器。

5.1. Autoencoder features
自动编码器（AE）是一种前馈神经网络，经过训练可在其输出处重构其输入。单层AE由输入层，隐藏层和输出层组成。 AE接受输入 x∈RD 并将其映射到隐藏表示 h =σ（W（0）x + b（0）），其中σ表示非线性激活（我们使用tanh）。通过解码隐藏表示获得AE的输出： y =σ（W（1）h + b（1））。训练网络使用损耗 || x-y || 2 重建输入。

堆叠的AE [33]是通过堆叠几个AE获得的，每个AE层都将前一层的编码作为输入。一次训练堆叠网络一层，每一层将其输出相对于其输入的损失最小化。大量研究表明，在这种堆叠式AE中，来自中间层的隐藏表示可用作语音应用程序中的功能[31,33-38]。
我们在表1所示的训练集上训练了8层堆叠的AE特征提取器，而忽略了转录。由13个倒谱，增量和增量系数组成的39维MFCC用作输入。除了最后一个具有39个单位的隐藏层之外，所有层都有100个隐藏单位。该层提供了AEMFCC和AEBNF实验中使用的功能。最后的隐藏层馈入线性输出层，从而生成预测的MFCC向量。

5.2. Correspondence autoencoder features
在使用相同的语音帧作为输入和输出来训练AE的同时，对应自动编码器（CAE）使用来自相同关键字类型的不同实例的帧作为输入和输出。使用一组隔离的关键字，我们考虑相同类型的所有可能的单词对。对于每对，DTW用于查找两个单词之间的最小开销帧级对齐，如图2所示。然后，将各个对齐的帧对用作CAE的输入输出对。因此，在语音特征对（x（a），x（b））上对CAE进行训练，其中x（a）是来自一个关键字的帧，而x（b）是来自相同类型另一关键字的对应对齐帧。给定输入x（a），然后训练网络y的输出，以使CAE损失 || y-x（b）|| 2 最小，如图2所示。
在这里插入图片描述
为了获得有用的功能，必须将CAE作为传统的AE进行预训练[31]。我们的CAE具有与5.1节所述的AE相同的结构，并且预训练遵循此处所述的相同程序。然后，使用上述CAE损失对一组隔离的关键字进行微调。因此，CAE利用大量未转录的数据进行初始化，然后将其与对少量带标签的关键字数据的弱监督形式相结合。从最后的39维隐藏层中提取输出要素。

目的是使用CAE获得对关键字对不常见的因素（例如说话者，性别和频道）不敏感的功能，而仍然依赖于诸如单词标识之类的因素。此外，由于考虑了关键字类型不同实例的所有成对组合，因此在其上微调了CAE的输入输出对的数量比关键字片段本身中的帧总数大得多。例如，对于SABN数据集，关键字总共包含大约120k帧，而按对组合则产生大约200万个唯一的对齐帧对。此外，在两个输入-输出方向上将帧对呈现给CAE，从而将训练实例的数量增加一倍，达到400万。

5.3. Bottleneck features
经过大量研究证明，使用一套资源丰富的语言训练的多语言瓶颈特征（BNF）提取器表现良好[7,22–30]，并且可以在几乎零资源的环境中直接使用。 BNF是通过共同训练来自多种语言的转录数据的深度神经网络而获得的。网络的较低层在所有语言之间共享。输出层具有电话或HMM状态标签作为目标，并且可以由每种语言共享或分开。通常，直接位于输出层之前的层的维数要比之前的层低，这是因为它应捕获所有语言通用的方面，因此称为“瓶颈”。

可以使用不同的神经网络架构来获取BNF。我们使用了由[22]中描述的来自GlobalPhone语料库的10种语言训练的6层延时神经网络（TDNN）。该网络使用ReLU激活和批量归一化，并具有39维瓶颈层。附加了100维i矢量的40维高分辨率MFCC用于说话人适应，用作网络的输入。

6. Experimental setup

除MFCC之外，我们还将上述每个神经网络用作特征提取器，并使用来自CAE，AE和BNF的中间/瓶颈层的特征作为基于DTW的关键字识别器的输入。所有的神经网络都将MFCC作为输入。每种方法都以特定的方式利用资源：AE是针对未转录的目标语言数据进行训练的；在未转录的数据上初始化CAE，然后在少量带标签的目标语言数据上进行微调； BNF使用大量带标签的非目标语言数据。还通过执行实验来研究这些方法的互补效果，在该实验中，使用BNF（而不是MFCC）作为输入来训练AE和CAE。 CAE的超参数直接取自[31]，即在开发集上没有进行进一步的调整，因此可以将其视为第二个测试集。

关键字发现效果是使用许多标准指标进行评估的。随关键字检测阈值的变化，通过将误报率与真报率作图来获得接收器工作特性（ROC）。该曲线下的面积（AUC）用作所有工作点上的单个度量。相等错误率（EER）是误报率等于误报率的点，即，较低的EER表示更好的系统性能。 10个精度（P @ 10）和N精度（P @ N）分别是前10个匹配项和前N个匹配项中正确的关键字检测比例。

7. Results

表2中列出了这两种语言的关键字发现结果。带有“ MFCC”和“ BNF”的列标题用于区分使用MFCC和BNF作为输入功能训练的网络。 MFCC，AE-MFCC和CAE-MFCC功能的结果表明，CAE始终优于MFCC基线，而AE在这种情况下没有任何好处。在SABN English的情况下，BNF和CAE-MFCC的结果是可比的，而在卢干达，BNF的表现优于CAE-MFCC。因此，使用目标语言中的少量标记数据与使用几种非目标语言中的大量标记数据进行特征学习一样有益。这在大型的域外数据集不可用的情况下可能很重要。
在这里插入图片描述
关于开发和测试数据的最佳整体模型是CAE-BNF。它的精度值比最接近的竞争对手高约1.7倍，而AUC和EER分别比标准BNF约高7–9％和4–10％。与基础MFCC相比，使用CAE-BNF功能时，AUC和EER提高了8–12％。 AE-BNF也可以在其MFCC同类产品上实现改进，但程度不能与CAE-BNF相同。 CAE-BNF展示了将从资源丰富的非目标语言中学到的功能与对未标记的域内语音进行预训练后，对少量标记的目标语言数据进行微调的优势。我们直接在外部关键词发现任务中显示了这一点，该任务使用从轻微监督的神经网络模型获得的特征。与[22,23]的工作相反，将发现的单词对用于无监督的CAE训练，而在BNF之上的CAE训练的益处尚无定论，我们在设置方面获得了持续的改进。