论文研究2:Combining Residual Networks with LSTMs for Lipreading

论文研究2:Combining Residual Networks with LSTMs for Lipreading

文章指南

本翻译是应对作者论文研究1中,对唇部特征进行特征训练而用到的参考资料,如果需要英文版pdf可私聊博主

Abstract

我们提出了用于字级视觉语音识别的端到端深度学习架构。 该系统是时空卷积,残差和双向长短期记忆网络的组合。 我们会在Lipreading的野外基准测试中对其进行训练和评估,该基准测试是一个具有挑战性的数据库,包含500个大小的目标词,包括来自BBC电视广播的1.28sec视频摘录。 拟议的网络可达到83.0%的单词准确度,与当前的最新技术相比,绝对提高了6.8%,而无需在训练或测试过程中使用有关单词边界的信息。

Index Terms: visual speech recognition, lipreading, deep learning

1. Introduction

视觉语音识别(也称为唇读)是一个日益受到关注的领域。 它是对基于音频的语音识别的自然补充,可以促进嘈杂环境中的听写,并在办公室和公共场所实现无声听写。 它在与改进的助听器和生物特征认证有关的应用中也很有用,[1]。 口语阅读是语音识别和计算机视觉社区相互交流并结合每个领域的进步的领域。 通过将研究方向从手工特征和基于HMM的模型转移到深度特征提取器和端到端深度架构,深度学习在这两个领域的巨大成功已经影响了视觉语音识别。 最近引入的深度学习系统至少在每个数据库定义的词汇表受限制的词汇量方面[1] [2]大大击败了人类的唇读专家。

对视觉和视听语音识别方法进行分类的一种方法是(i)建模单词的模型(例如[3] [4])和(ii)建模语音元素的模型(例如[1] [2]),即 对应于视觉上无法区分的音素集的视觉单位[5] [6]。 前一种方法被认为与诸如隔离单词识别,分类和检测之类的任务更相关,而后一种方法则与句子级别的分类和大词汇量连续语音识别(LVCSR)有关。 然而,语音识别和自然语言处理的最新进展表明,即使对于LVCSR,单词的直接建模也是可行的,[7] [8] [9]。

提出的系统属于前一类,尽管它可以通过在SoftMax层使用视位代替词标签来支持视位级识别。 它组合了三个子网:(i)前端,将时空卷积应用于帧序列;(ii)应用于每个时间步的残差网络(ResNet);以及(iii)后端,即 两层双向长期短期记忆(Bi-LSTM)网络。 SoftMax层应用于所有时间步长,总损耗是每个时间步长损耗的总和,并且以端到端的方式训练系统。最后,该系统不仅执行单词识别,而且还执行隐式关键词发现,因为目标单词不是孤立的,而是固定持续时间(1.28sec)整体发音的一部分。 在训练和评估期间都不会使用有关单词边界的信息。

本文的其余部分安排如下。 在第2节中,我们将介绍有关视觉语音识别的最新作品,重点是那些应用深度学习方法的作品。 第3节讨论了Lipreading野外(LRW)数据库,而在第4节中,我们分析性地提出了所提出的模型,以及一些有关预处理和实现的有用细节。 最后,在第5节中,我们介绍了我们的实验结果以及基线和最新结果。

2. Related work

在深度学习([10])出现之前,唇读的大部分工作都是基于手工设计的功能,这些功能通常是基于基于HMM建模的[11] [12] [13] [14] [15] ]。还提出了时空描述符,例如活动外观模型和光流法,以及SVM分类器,[16]。对于传统的唇读方法的分析综述,我们参考[17]和[18]。最近的工作将深度学习方法用于提取“深度”特征([19] [20] [21])或用于构建端到端体系结构。在[22]中,深度信仰网络被部署用于视听识别,并且与基线多流视听GMM / HMM系统相比,据报道相对改善了21%。在[23]中,使用深度自动编码器提取了瓶颈特征。瓶颈功能与DCT功能串联在一起,整个系统使用LSTM后端进行联合训练。在[3]中,提出了一个完整的LSTM体系结构,与在GRID视听语料库上的传统方法相比,它获得了更好的结果[24]。在[1]中,引入了一个端到端的句子级唇读网络(LipNet),该网络结合了时空卷积层,LSTM和连接主义时空分类(CTC,[25])。它在GRID数据库中的一部分说话者上达到了95.2%的句子水平准确度,同时对其余GRID说话者进行了培训。最后,在[2]中,在视听和视觉环境中都研究了具有注意力机制的编解码器。仅使用视觉信息,GRID报告的字准确度为97.0%,LRW报告的字准确度为76.2%。据我们所知,后一种结果定义了两个数据库的最新技术水平,只要可以利用其他训练资源即可[2]。

3. Database

我们在具有挑战性的LRW数据库上训练和评估该算法,[4]。 该数据库包含从BBC电视广播(新闻,脱口秀节目等)中提取的视听语音片段,其特点是说话者和姿势的变化很大。 而且,目标词的数量为500,比其他公共数据库(GRID [24],CUAVE [26],a.o。)高一个数量级。 使数据库如此具有挑战性的另一个功能是存在共享大多数视位的单词对。 这样的例子是单数和复数形式的名词(例如,Benefitbenefits,23对),以及现在和过去时态的动词(例如,allow-allowed,4对)。

但是,数据库和我们选择继续进行设置的最困难的方面可能是目标词出现在话语中而不是孤立的事实。 因此,网络不仅应学习如何在500个目标词之间进行区分,而且还应学习如何忽略话语的不相关部分并找出目标词之一。 并且它应该学习如何做到这一点而又不知道单词边界。 话语的一些随机例子是“ …选举胜利…”,“ …当天的其他新闻…”,“ …等等高级劳工…”和“ …要点, 我认为…”,斜体字表示每种话语的目标词。

数据库的收集是全自动的,包括字幕上的OCR,与音频的同步(强制对齐),以及验证说话者是否可见(详细说明请参见[4])。 训练集每个目标单词最多包含1000个出现,而验证和评估集每个单词最多包含50个出现。 每个剪辑具有固定的持续时间(1.28秒,31帧,帧率为25fps)。 来自数据库的随机帧如图1所示。

4. Deep Learning modeling and preprocessing

系统流程图

4.1. Facial landmarks and data augmentation

在第一个预处理步骤中,我们将多余的信息丢弃以专注于嘴巴区域。 为此,我们使用[27]和[28]中提出的2D版算法。 该算法分两步处理回归。 它首先应用检测来提取一组热图(每个landmark一个),用作后续回归网络的辅助信息。 基于66个面部landmark,我们裁剪图像并将它们调整为固定的112×112尺寸。 使用每个landmark的中值坐标,将通用裁剪应用于给定剪辑的所有帧。 帧被转换为灰度并相对于整体均值和方差进行归一化。 最后,在训练过程中,通过应用随机裁剪(±5像素)和水平翻转(在给定剪辑的所有帧之间通用)进行数据增强。

4.2. Spatiotemporal front-end

第一组层将时空卷积应用于预处理的帧流。 时空卷积层能够捕获嘴巴区域的短期动态,并且被证明是有利的,即使在后端部署了循环网络时也是如此[1]。 它们由一个卷积层组成,该卷积层具有64个3D内核,大小为5×7×7(时间/宽度/高度),然后是批处理归一化(BN,[29])和整流线性单位(ReLU)。 提取的特征图将通过时空最大池化层,该层会降低3D特征图的空间大小。 时空前端的参数数约为16K。

4.3. Residual Network

3D特征图通过一个残留网络(ResNet,[30])传递,每个时间步长一个。 我们使用为ImageNet提出的34层身份映射版本,[31]。 它的构件由两个卷积层组成,并具有BN和ReLU,而跳过连接则有助于信息传播[31]。 ResNet逐渐减少具有最大池化层的空间维数,直到其输出在每个时间步长变为一维张量。 我们应该强调,我们没有使用预训练的模型,因为它们针对完全不同的任务进行了优化(例如,来自ImageNet或CIFAR的静态彩色图像)。 ResNet的参数数量约为21M。

4.4. Bidirectional LSTM back-end and optimization criterion

该模型的后端是双向LSTM网络。 对于两个方向中的每个方向,我们堆叠两个LSTM,然后将最终LSTM的输出串联在一起。 LSTM后端的参数数量约为2.4M。

当使用单词级识别而不对视位进行显式建模时,根据优化标准存在几种方法。一种方法是将SoftMax层放置在LSTM输出的最后一个时间步,即在整个序列由LSTM编码时。考虑到LSTM对消失梯度问题的适应能力,通过时间的反向传播能够将误差一直传播到序列的第一时间步长[3]。第二种方法是将标准应用于每个时间步骤。这种方法更接近于LSTM在语音识别中的典型用法,在该方法中,在每个时间步重复单词标签而不是音素/粘滞语标签。这种方法非常适合于双向LSTM,因为隐藏状态始终可以访问整个视频[32]。经过对这两种方法的实验,我们得出的结论是,后者可以提高更高的字词准确度(约3%的绝对改善)。因此,总损失定义为所有时间步长上的总损失,这与单词后验的负对数之和相吻合。再次注意,单词标签将应用于剪辑的所有时间步,因为单词边界是未知的。

4.5. Implementation details

我们的实现基于Torch7([33]),并且网络在具有12GB内存的NVIDIA Titan X(Pascal架构)GPU上进行了培训。 我们使用标准的SGD训练算法,动量为0.9。 BN遵循所有卷积和线性层,除了SoftMax层之前的层。 我们不应用dropout,因为它不是ResNet训练过程的一部分(BN似乎足够[29])。 初始学习率为5×10−4,最终学习率为5×10−5,对数尺度递减。 当验证集上的结果不再改善(延迟3个纪元)时,则认为训练已完成。 我们所有的模型在15到20个时代之后都会收敛。

网络的框图如图2所示。为了清楚起见,已省略了BN层。 还显示了每层输出的张量的大小。 对于3D卷积前端,张量尺寸表示通道,时间,宽度和高度。

我们应该强调,尽管可以直接对整个系统进行端到端的训练,但我们使用以下三个步骤的方法。 最初,使用时间卷积后端代替Bi-LSTM。 收敛后,时间卷积后端将被删除,Bi-LSTM后端将被连接。 Bi-LSTM训练了5个纪元,使3D卷积前端和ResNet的权重保持固定。 最后,整个系统是端到端的训练。 第5节介绍了两个后端之间的比较。

5. Experiments

5.1. Baseline results

在[4]中公布的最佳基准结果是多塔式VGG-M。 它由一组具有共享权重的并行VGG模型(塔)组成,这些权重使用池在通道级进行级联,而网络的其余部分与常规VGG-M相同。 结果在表1中以字的准确性表示。 Top-1对应于正确识别单词的次数的百分比,而更普遍的是TopN对应于N个最佳分数中正确单词的次数的百分比。

在[2]中,提出了一种注意力编码器-解码器架构,[34]。 它是在另一套BBC电视广播中接受训练的,其中包含整个句子而不是单词。 在GRID和LRW上评估系统的纯可视版本(称为“观察,参加和拼写”,WAS)。 该网络在BBC电视广播中进行了预训练,而GRID和LRW的训练集用于微调。 在GRID和LRW上分别报告了99.7%和74.2%的单词准确性(前1个),根据我们的知识,这两个数据库都代表了当前的最新水平。

5.2. Results using our network

我们开始使用比所提出的模型更简单的模型,以检查网络中每个单独组件的贡献。 第一个网络应用2D卷积而不是3D。 ResNet跟随2D卷积,而后端基于时间卷积而不是LSTM。 更具体地说,我们使用两个时间卷积层,每个层之后是BN,ReLU和Max Pooling,它们将时间维数减少了2倍。最后,添加了Mean Pooling层,然后是线性层和SoftMax层 。 结果列于表2(用N1表示)。 表2还显示了相同模型但具有3D卷积的结果(用N2表示)。

为了验证ResNet的有效性,我们用参数数量大约相同(〜20M)的深度神经网络(DNN)代替了它。 DNN由3个完全连接的隐藏层组成,分别是BN和ReLU。 它的输入是3D卷积图,被视为矢量(每个时间步一个)。 DNN逐渐将向量的大小减小为50176→384→384→256。结果显示在表2中(用N3表示)。

现在,我们专注于网络的后端,并使用LSTM代替时间卷积。 表3中的第一个网络(用N4表示)使用单层Bi-LSTM,而第二个网络(用N5表示)使用双层Bi-LSTM。 这两个网络不是端到端训练的。 在训练后端时,3D卷积层和ResNet(从N2复制)保持不变。 此外,两个定向LSTM的输出被加在一起而不是串联在一起。

对于最终结果,我们使用整个网络的端到端培训。 表4中的第一个网络(用N6表示)与N5相同,但是使用N5的权重作为起点进行了端到端的训练。 最后,N7也被端到端地训练,与N6的唯一区别是两个定向LSTM的输出被串联在一起,而不是相加在一起(如图2所示)。

5.3. Discussion and error analysis

从上面给出的结果中可以得出几个结论(为清楚起见,另请参见图3)。首先,通过将基准线与N1进行比较,我们观察到最简单的系统比VGG-M基准线产生了8.5%的绝对改善。此外,使用3D(N2)代替2D(N1)可以进一步提高5.0%的绝对改善,强调需要对前端嘴部区域的短期动力学建模。通过比较N2和N3,我们注意到,与参数数量相同的3层DNN相比,ResNet的工作精度提高了4.9%。此外,通过使用单层Bi-LSTM(N4)代替时间卷积后端,可以进一步实现3.8%的绝对改进,突出了LSTM在时间序列建模中的表达能力。此外,使用两层Bi-LSTM(N5)可以进一步提高1.2%的绝对改善。最后一组结果证明了端到端培训对于实现更高的单词准确性的重要性。通过以端到端的方式训练N5(N6),我们获得了1.9%的绝对改善,而通过串联(N7)而不是将(N6)的Bi-LSTM输出相加,我们获得了最佳结果,即83.0%的工作准确性。

表5包含了由我们最好的系统(N7)造成的最常见错误。 我们观察到,大多数单词对在语音和“视觉”内容上相互接近。 我们应该再次强调,这些片段包含从前连续语音中摘录的前,后单词的发音。 因此,偶尔很难正确识别单词的第一个和最后一个视位。

表6中列出了该系统可产生最佳和最差性能的单词列表。正如预期的那样,该系统在具有丰富语音/视觉内容的单词上表现很好,反之亦然。 系统没有错误的有8个单词,只有3个单词的单词准确度低于50%。 回想一下,每个目标词的评估片段数量为50个(即总共25000个片段)。

6.Conclusion

我们提出了一种时空深度学习网络,用于单词级视觉语音识别。 该网络是3D卷积前端,ResNet和基于LSTM的后端的堆栈,并使用每时间步长损失的汇总进行训练。 我们选择使用LRW数据库进行试验,因为它结合了许多吸引人的特征,例如大尺寸(约50万个剪辑),说话者的高可变性,姿势和照明,非实验室的野外条件以及目标词作为其中的一部分 整个话语,而不是孤立的话语。 我们探索了几种网络配置,并展示了网络各个组成部分的重要性以及通过端到端培训网络获得的性能提升。 拟议的网络产生了83.0%的工作准确度,这相当于基线VGG-M网络的错误率不到一半,并且比注意力集中的编码器/解码器网络所达到的76.2%的最新准确度高6.8%的绝对改进, [2] [4]。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值