Seeing wake words: Audio-Visual Keyword Spotting(2020)

看到唤醒词:视听关键字定位

摘要

这项工作的目标是自动确定有声或无声说话的人脸是否以及何时说出感兴趣的单词。我们提出了一种适用于“野外”视频的零拍方法。

我们的主要贡献是:

  1. 一种新的卷积结构KWS-Net,它使用相似图中间表示将任务分为(i)序列匹配和(ii)模式检测以确定单词是否存在以及何时出现
  2. 我们证明,如果音频可用,视觉关键词识别可以提高干净和嘈杂音频信号的性能。
  3. 我们表明,我们的方法可以推广到其他语0言,特别是法语和德语,通过微调预先训练的英语网络,在语言特定性数据较少的情况下,我们的方法可以达到与英语相当的性能。

当在同一基准上进行训练和测试时,该方法的性能超过了之前最先进的视觉关键词识别体系结构,也超过了最先进的唇读方法。

研究内容

关键词识别(KWS)是在连续语音中检测感兴趣单词的任务。在视听数据中,只能从音频流、视频流或两个流中检测关键字。

在KWS中,所寻找的单词是由用户提供的,因此任务比在ASR或AVSR中没有知识的情况下识别更容易。这表明KWS模型可以(i)比ASR或AVSR简单得多,(ii)具有更高的性能。

Visual KWS在音频不可用的情况下有明确的应用,例如浏览存档无声电影,更重要的是在音频被噪声破坏的情况下,包括唤醒词识别(例如“OK Google”、“Hey Siri”和“Alexa”)以及其他人机交互,例如在智能家居技术中(例如,关灯),或帮助有语言障碍或失音的人[34]。

任何视觉KWS系统的一个基本约束是检测声音不同但涉及相同嘴唇运动的单词(它们具有相同的“视位”——视位是音素的视觉等价物;音素是语音中最小的声音单位)。例如,没有音频就无法区分“may”、“pay”和“bay”,因为“m”、“p”和“b”的视位符号看起来是一样的。其他困难包括阶级内部的差异(例如口音、说话速度和口齿不清会改变嘴唇的运动)和可变的成像条件(例如光线、运动、分辨率)[13]。从连续语音中识别单词也很有挑战性,因为可能存在嘴唇的共同发音。

提出的方法&模型架构

KWS-Net 

 Figure 1: General approach of KWS-Net: The inputs to the model are a user-specified keyword and either audio, video or both. The objective is to detect whether the keyword occurs in the input signal and, if present, then where it is.

图1:KWS-Net的一般方法:模型的输入是用户指定的关键字以及音频、视频或两者。目标是检测关键字是否出现在输入信号中,如果存在,则检测其位置。

 

Figure 2: Visual-only KWS-Net pipeline: The viseme and phonetic sequence embeddings are used to compute a similarity map, which is expected to show a strong diagonal component when the keyword is present. This pattern can be detected by a CNN-based classifier. The output keyword detection probabilities are plotted for the clip. See details in Section 3.

图2:仅视觉的KWS网络管道:viseme和语音序列嵌入用于计算相似性图,当关键字存在时,该相似性图预计将显示强对角分量。这种模式可以由基于CNN的分类器检测。绘制了剪辑的输出关键字检测概率。详见第3节。

 

数据集

Table 1: Statistics on datasets: Division of development and test data, number of utterances and word instances, duration, vocabulary size and examples for each dataset.

表1:数据集统计:开发和测试数据的划分、话语和单词实例的数量、持续时间、词汇大小和每个数据集的示例。

补充内容

唇读。最近涉及视觉序列字符级识别的深度学习方法可分为两种类型:(i)使用连接主义时间分类(CTC)损失[19]训练的模型,其中逐帧标签预测用于搜索与输出序列的最佳对齐,以及(ii)使用序列到序列(seq2seq)损失训练的模型,在自回归输出序列预测过程的每一步处理输入的不同部分之前,首先读取整个输入。CTC模型的例子包括LipNet[8]和最近的LSVSR[34],它们显示了最先进的性能,在对大量数据进行训练时,字错误率低至40.9%。seq2seq模型的例子包括Chung等人[16]的LSTM with attention模型,该模型将音频模型“倾听、参与和拼写”扩展到了视觉和视听ASR。Afouras等人[2]将seq2seq损耗与自我关注层结合起来,提出了一种基于变压器的模型。最近还提出了结合CTC和seq2seq损耗的混合方法[4,30],在LRS2基准测试[4,15]上展示了有希望的结果。

音频KWS(Audio KWS)。传统的基于音频的KWS方法基于HMMs[40]。最近的深度学习工作研究了全连通网络[11,41]、时滞神经网络[28,39]、卷积神经网络(CNN)[29,32,42,46]、图卷积神经网络[12]和递归神经网络(RNN)[18,23,38]。RNN还与卷积层[7,25,27]相结合,以同时对局部特征和时间依赖性建模。最近的工作还探索了KWS的seq2seq模型[9,31,45,47]。

视觉KWS(Visual KWS)。Yao等人[44]使用滑动窗口将句子级视频分割成更小的片段,在这些片段上执行单词级分类,并使用最大池层跨片段聚合。他们的方法用于1000个汉语关键词的封闭集,而我们的方法是零射击。我们无法与他们的工作相比,因为(i)我们无法访问普通话语音词典,以及(ii)他们的验证和测试集不可用。Jha等人[24]提出了一种基于示例的查询视觉KWS体系结构,其中单词查询和检索都是视频,并使用余弦相似性分数将标签查询分配给目标视频。最近,Stafylakis等人[37]设计了一种端到端的体系结构,它使用RNN来学习视觉特征和关键字表示之间的相关性,这些特征是从一个从字形到音素的编码器-解码器中提取出来的。

视听KWS(Audio-visual KWS)。Ding等人[17]构建了一个视听决策融合KWS系统,该系统由2D CNN和3D CNN组成,2D CNN用于建模对数mel谱图的时频特征,3D CNN用于建模口腔的时空特征。音频和视频网络的softmax输出通过求和进行组合,每个模态具有固定权重,以估计每个关键字的后验概率。在[43]中,基于HMMs的自适应决策音频-视频融合是使用建议的lip描述符执行的。这两项工作都是在私人的、相对较小的PKU-AV数据集上进行评估的,该数据集包含3000个剪辑和30个关键词,涉及的说话者不超过20人,不包括任何口腔阻塞。这些方法是通过训练期间看到的关键词来评估的,而不是零射击。

实验

 

Table 2: Visual-only results: Performance of baselines, visual-only KWS-Net, and ablations on the LRS2 test set. *refers to our implementation of [37] and Stafylakis et al. P2G refers to switching G2P to P2G. Visual-ASR denotes our lip reading baseline from [5]. KWS-Net refers to our architecture from Section 3. no LOC represents not using the keyword time boundaries for training; no SH denotes not concatenating the phonetic embedding shortcut; +P2G denotes using a P2G encoder-decoder instead of a BiLSTM keyword encoder.

表2:仅视觉结果:基线性能、仅视觉KWS网络和LRS2测试集上的烧蚀*指我们对[37]和Stafylakis等人的实现。P2G指将G2P切换为P2G。视觉ASR表示[5]中的唇读基线。KWS Net指的是第3节中的架构。无LOC表示不使用关键字时间边界进行训练;no SH表示不连接拼音嵌入快捷方式+P2G表示使用P2G编码器-解码器而不是BiLSTM关键字编码器。

Table 4: (Left) Audio-visual results: Performance results for visual-only, audio-only and audio-visual KWS-Net on the LRS2 test set with clean audio and in the presence of noise at 0 dB SNR. Standard deviations for this table are given in the appendix. Figure 4: (Right) Mean average precision for visual-only (red), audio-only (blue) and audio-visual (green) KWS-Net with a noisy audio signal, as the SNR is varied between -10 dB and 20 dB.

表4:(左)视听结果:在0 dB SNR下,具有干净音频且存在噪声的LRS2测试集上,仅视觉、仅音频和视听KWS网络的性能结果。附录中给出了该表的标准偏差。图4:(右)当SNR在-10 dB和20 dB之间变化时,具有噪声音频信号的纯视觉(红色)、纯音频(蓝色)和视听(绿色)KWS网络的平均精度。

 Figure 3: Qualitative results: Example similarity maps with visual-only KWS-Net for keywords ‘improved’, ‘hopeful’, ‘control’ and ‘proportion’ for clips in the LRS2 test set, with the application of a sigmoid for better visualisation. The vertical axis represents the phonemes in the keyword (graphemes are shown here for simplicity). The horizontal axis corresponds to the visual sequence; for visualisation we add phoneme ground truth start times for the entire clip utterance, with those corresponding to the keyword in red.

图3:定性结果:LRS2测试集中剪辑的关键字“改进”、“希望”、“控制”和“比例”的仅视觉KWS网络相似性图示例,应用乙状结肠进行更好的可视化。纵轴表示关键字中的音素(为了简单起见,此处显示了图形)。水平轴对应于视觉序列;为了可视化,我们添加了整个片段语音的音素地面真实开始时间,其中对应于红色关键字的时间。

 

Table 3: Query investigation: Performance of visual-only KWS-Net on the extended LRS2 test set with different query types and minimum phoneme lengths np.

表3:查询调查:在不同查询类型和最小音素长度np的扩展LRS2测试集上,纯视觉KWS网络的性能。

 

Table 5: Language results: Performance of visual-only, audio-only and audio-visual KWSNet on LRS3 (English), LRS3-Fr (French) and LRS3-De (German). *The task here is classifying whether the keyword occurs in the clip, and keywords may be seen during training.

表5:语言结果:LRS3(英语)、LRS3 Fr(法语)和LRS3 De(德语)上的纯视觉、纯音频和视听KWS Net性能*这里的任务是分类关键词是否出现在剪辑中,并且在训练期间可以看到关键词。

  

结论

在本文中,受目标检测方法的启发,我们提出了一种新的基于CNN的KWS体系结构KWS-Net。

我们最好的纯视觉模型在LRS2数据集上的性能超过了之前的最先进水平。

我们表明,结合音频和视频模式有助于KWS获得干净和嘈杂的音频。

最后,我们证明了KWS网络可以推广到英语以外的语言。

在未来的工作中,我们计划通过合并周围单词的上下文来改进KWS网络。致谢。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值