AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK (2018)

基于多维卷积神经网络的视听关键字定位(2018)

摘要

音频和视频信息的融合是可靠的关键字定位(KWS)最有前途的解决方案之一,尤其是当音频被噪声破坏时。

KWS的目标是检测音频流中的特定单词,这在噪声环境下仍然是一个具有挑战性的问题。本文提出了一种基于多维卷积神经网络(MCNN)的视听神经网络来实现视听KWS。

首先,从音频和视频流中分别提取对数mel谱图和唇部区域序列,并将其作为音频-视频神经网络的输入。

然后,利用由二维CNN和三维CNN组成的基于MCNN的视听神经网络分别对对数mel谱图的时频特征和唇部区域序列的时空特征进行建模。

最后,通过决策融合将音频和视频网络的输出合并为KWS。在噪声学条件下的PKU-AV数据库上的实验结果表明,与其他最先进的方法相比,该方法具有更好的性能。

索引项——视听、关键词识别、多维神经网络、决策融合。

研究内容

本文提出了一种基于多维卷积神经网络(MCNN)的视听KWS方法。分别从音频和视频流中提取对数mel谱图和唇部区域序列作为音频和视频特征。

为了充分利用音频和视频特征中的各个维度信息,提出了一种基于MCNN的音频和视频神经网络模型,该模型由二维CNN和三维CNN组成。

二维CNN通过二维卷积运算同时学习对数谱图的时频特征。

同样,通过3D卷积运算,3D CNN被用来学习嘴唇区域序列的时间和空间特征。

最后,通过决策融合将音频和视频网络的输出结合起来,估计每个关键词的后验概率。在PKU-AV数据库上的实验结果表明,与其他常用方法相比,该方法具有更高的鲁棒性。

提出的方法&模型架构

视听神经网络 

由多维卷积神经网络(MCNN)组成的视听神经网络的结构如图1所示。MCNN包括耦合的二维和三维CNN。对于音频和视频网络,除最后一层外,每个卷积层后面都有一个整流线性单元(ReLU)激活。

3.1. 音频网络

由于KWS的实时性要求,音频网络中的层数应尽可能少,以降低其计算复杂度,同时保持令人满意的KWS性能。为此,我们设计了一个音频网络,包括两个二维卷积层、一个二维最大池层和一个完全连接(FC)层。

如图1的上半部分所示,音频特征A首先被放入内核大小为21×8的2D卷积层。

然后,使用核大小为2×3的2D max池层来减少由说话风格、通道失真等引起的时频变化池操作执行子采样以降低时频音频特征的维数。在池操作之后,使用一个内核大小为6×4的二维卷积层对音频特征进行加权

最后,使用完全连接的层将前一层的输出压缩为64个输出单元。

在这个网络中,二维卷积层和池层的步长为1。不采用零填充,因为它会引入额外的虚拟零能量系数,这些系数在局部特征提取的意义上是没有意义的。在CNN层中使用非方核函数来学习有限层的更多时域信息。

3.2. 视觉网络

按照音频网络的类似原理,视频网络由三个3D卷积层、三个3D最大池层和一个完全连接层组成。

如图1下半部分所示,首先将视觉特征V放入一个内核大小为9×3×3的3D卷积层,然后使用一个内核大小为1×3×3的3D max池层来实现空间特征池。

接下来,同样的3D卷积和最大池操作再重复一次。

然后,应用核大小为4×3×3的三维卷积层和核大小为1×3×3的三维最大池层。最后,使用完全连接的层将前一层的输出压缩为64个输出单元。

在该网络中,执行3D卷积运算以发现时空唇部特征的相关性。三维卷积层的步长为1。为了提高对移动嘴唇效果的鲁棒性,3D max pooling层中的pooling Street设置为2,以在pooling内核附近保持嘴唇运动特征。

视听融合 

 

数据集

我们实验中使用的数据集是我们自己收集的视听数据库,称为PKU-AV数据库

PKU-AV数据库是在一个安静的声学环境中收集的,正常光照受控,由20名受试者(12名男性和8名女性)记录。在不遮挡口腔区域的条件下,每个人能说出300个汉语普通话,用摄像机以每秒20帧的速度记录,分辨率为640×480。相应的语音音频以16 kHz的采样频率同步记录,每个采样16位。我们定义了30个日常生活中常用的关键词/短语。在每个主题中,每个关键词有5个示例句子。因此,每个关键词有100个示例句,3000个否定示例句没有总结关键词

实验

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值