AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK （2018）

最新推荐文章于 2024-05-31 16:14:40 发布

阿凡凡提

最新推荐文章于 2024-05-31 16:14:40 发布

阅读量124

点赞数

分类专栏：唇部识别唇部+音频转文字文章标签：深度学习神经网络人工智能

唇部识别同时被 2 个专栏收录

3 篇文章 1 订阅

订阅专栏

唇部+音频转文字

3 篇文章 0 订阅

订阅专栏

基于多维卷积神经网络的视听关键字定位（2018）

摘要

音频和视频信息的融合是可靠的关键字定位（KWS）最有前途的解决方案之一，尤其是当音频被噪声破坏时。

KWS的目标是检测音频流中的特定单词，这在噪声环境下仍然是一个具有挑战性的问题。本文提出了一种基于多维卷积神经网络（MCNN）的视听神经网络来实现视听KWS。

首先，从音频和视频流中分别提取对数mel谱图和唇部区域序列，并将其作为音频-视频神经网络的输入。

然后，利用由二维CNN和三维CNN组成的基于MCNN的视听神经网络分别对对数mel谱图的时频特征和唇部区域序列的时空特征进行建模。

最后，通过决策融合将音频和视频网络的输出合并为KWS。在噪声学条件下的PKU-AV数据库上的实验结果表明，与其他最先进的方法相比，该方法具有更好的性能。

索引项——视听、关键词识别、多维神经网络、决策融合。

研究内容

本文提出了一种基于多维卷积神经网络（MCNN）的视听KWS方法。分别从音频和视频流中提取对数mel谱图和唇部区域序列作为音频和视频特征。

为了充分利用音频和视频特征中的各个维度信息，提出了一种基于MCNN的音频和视频神经网络模型，该模型由二维CNN和三维CNN组成。

二维CNN通过二维卷积运算同时学习对数谱图的时频特征。

同样，通过3D卷积运算，3D CNN被用来学习嘴唇区域序列的时间和空间特征。

最后，通过决策融合将音频和视频网络的输出结合起来，估计每个关键词的后验概率。在PKU-AV数据库上的实验结果表明，与其他常用方法相比，该方法具有更高的鲁棒性。

提出的方法&模型架构

视听神经网络

由多维卷积神经网络（MCNN）组成的视听神经网络的结构如图1所示。MCNN包括耦合的二维和三维CNN。对于音频和视频网络，除最后一层外，每个卷积层后面都有一个整流线性单元（ReLU）激活。

3.1. 音频网络

由于KWS的实时性要求，音频网络中的层数应尽可能少，以降低其计算复杂度，同时保持令人满意的KWS性能。为此，我们设计了一个音频网络，包括两个二维卷积层、一个二维最大池层和一个完全连接（FC）层。

如图1的上半部分所示，音频特征A首先被放入内核大小为21×8的2D卷积层。

然后，使用核大小为2×3的2D max池层来减少由说话风格、通道失真等引起的时频变化。池操作执行子采样以降低时频音频特征的维数。在池操作之后，使用一个内核大小为6×4的二维卷积层对音频特征进行加权。

最后，使用完全连接的层将前一层的输出压缩为64个输出单元。

在这个网络中，二维卷积层和池层的步长为1。不采用零填充，因为它会引入额外的虚拟零能量系数，这些系数在局部特征提取的意义上是没有意义的。在CNN层中使用非方核函数来学习有限层的更多时域信息。

3.2. 视觉网络

按照音频网络的类似原理，视频网络由三个3D卷积层、三个3D最大池层和一个完全连接层组成。

如图1下半部分所示，首先将视觉特征V放入一个内核大小为9×3×3的3D卷积层，然后使用一个内核大小为1×3×3的3D max池层来实现空间特征池。

接下来，同样的3D卷积和最大池操作再重复一次。

然后，应用核大小为4×3×3的三维卷积层和核大小为1×3×3的三维最大池层。最后，使用完全连接的层将前一层的输出压缩为64个输出单元。

在该网络中，执行3D卷积运算以发现时空唇部特征的相关性。三维卷积层的步长为1。为了提高对移动嘴唇效果的鲁棒性，3D max pooling层中的pooling Street设置为2，以在pooling内核附近保持嘴唇运动特征。

视听融合

数据集

我们实验中使用的数据集是我们自己收集的视听数据库，称为PKU-AV数据库。

PKU-AV数据库是在一个安静的声学环境中收集的，正常光照受控，由20名受试者（12名男性和8名女性）记录。在不遮挡口腔区域的条件下，每个人能说出300个汉语普通话，用摄像机以每秒20帧的速度记录，分辨率为640×480。相应的语音音频以16 kHz的采样频率同步记录，每个采样16位。我们定义了30个日常生活中常用的关键词/短语。在每个主题中，每个关键词有5个示例句子。因此，每个关键词有100个示例句，3000个否定示例句没有总结关键词。

实验

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK （2018）

基于多维卷积神经网络的视听关键字定位（2018）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。