史上最详细Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention文章记录

本文为Automatic Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention for Image Sequences with No Word Boundaries的记录,原论文请看
https://pan.baidu.com/s/1RoZzaEvTrYDB0rHaSyCpyg,提取码:1111。
来源:INTERSPEECH2021
作者单位:中国科学技术大学

1.翻译原文

1.1摘要

1.本文为深度词级唇语识别。
2.我们引入HPConv提取多尺度空间特征和Attention机制。
3.HPConv提取细粒度空间特征,发现唇部细微变化。
4.Self-Attention用来提取序列中的关键特征,实现Word Boundary的效果。
5.引入Self-Attention比在时间维度平均特征提升10%性能。
6.Self-Attention学到了序列首尾权值趋于0,而中间趋于非0。

1.2介绍

第一段:唇语识别是xxxx的任务。在xxxx有前景。
第二段:传统方法xxxx这样做。深度学习方法xxxx那样做。深度学习方法比传统方法好。
第三段:本文在LRW上研究词级唇语识别。LRW是xxxx的数据集,很有挑战性。
第四段:深度学习模型包含前端(特征提取),后端(全局建模),共识(合并全局信息)三个模块(一般忽略共识模块)。前人缺陷:1、前端模块空间卷积核尺寸固定;1、共识模块都是取均值。
第五段:当前SOTA为MS-TCN,包含前端3D + 2D-ResNet-18、后端MS-TCN、共识模块平均特征。我们基于MS-TCN进行改进:1、引入HPConv替换2D-ResNet-18中的2D Conv;2、使用Self-Attention替换平均合并全局信息。

1.3提出的方法

第一段:我们提出的方法如图:
在这里插入图片描述
第二段:我们没改太多,只替换了前端和共识模块。

HPConv:
第一段:传统2D-ResNet18卷积尺寸固定,所以特征图也只有固定尺寸的空间上下文信息。
第二段:我们分析了基线的出错类型,发现视素少的类别错误率高,多的低。因为视素少的样本有效的唇部运动较少,所以我们提出了多尺寸卷积核来提取足够的上下文信息,使前端获得区分度更大的特征图。这样可以提升少视素单词的准确率。
第三段:为了验证多尺度空间特征的影响,我们先引入PyConv。默认4个尺度(3,5,7,9),小尺度可以提取局部信息,大尺度可以提取全局信息。模型可以学习不同尺寸较好的组合。2D-ResNet-18中的所有2D Conv替换为了PyConv,我们称新的模型为Py-ResNet-18。PyConv如图所示:
在这里插入图片描述
第四段:基于PyConv,我们加入了相邻层间的连接,提出HPConv。其中,局部特征图不仅作为最终的特征图输出,还作为全局特征提取的输入。自底向上的信息融合可以进一步提升性能。我们将Py-ResNet-18的每个卷积块中第二个PyConv替换为HPConv,我们称新的模型为HP-ResNet-18。 HPConv如图所示:
在这里插入图片描述
自注意力共识模块:
第一段:大部分共识模块使用对后端输出在时间维度对每个特征求均值(如29*512的特征序列,经均值共识模块得到512作为最终特征)。
第二段:均值共识每帧的贡献相同。但LRW中有效词在序列中间,应该是中间帧贡献高,两侧帧贡献低。Word Boundary提供精准标注,但不易获取。所以我们提出自注意力共识模块让模型更注重中间帧。

1.4实验

消融: 预处理和训练方法和MS-TCN基线相同。消融结果如图所示:
在这里插入图片描述
基线85.3%。无词边界情况下,引入PyConv提升0.6%,引入HPConv提升1.2%;引入自注意力共识提升1.2%;合并提升1.6%。

**HPConv分析:**我们对比了2D-ResNet-18,Py-ResNet-18,HP-ResNet-18,都采用均值共识。Py和HP均有提升,HP提升更大,在视素较少时提升更明显。结果如下所示:
在这里插入图片描述
自注意力共识分析:
1.我们加入Word Boundary重新训练了MS-TCN基线。自注意力共识在有Word Boundary时无效;HPConv依然可以提升 0.8%。自注意力共识后端可以视为软Word Boundary。结果如图所示:
在这里插入图片描述
2.我们按Word Boundary的权重 [0, 0, 1, 1…1, 0, 0]、均值等权重 [1, 1, 1…1, 1, 1]和注意力学到的权重[0, 0, 0, 1…1, 0, 0]的编辑距离将测试集分为多个类。我们得到了基线模型的结果(计算Word Boundary和自注意力学习的权重的编辑距离),距离越大,精度越低,如下图所示:
在这里插入图片描述
我们还比较了自注意力的权重和均值的权重分别与Word Boundary的编辑距离,结果如下:
在这里插入图片描述
红色为学到的和Word Boundary,蓝色的为均值(全为1)和Word Boundary的编辑距离,可见自注意力共识比均值共识更贴近Word Boundary。
3.我们还可视化了8个头中,当前帧和其他帧的权重,如下图所示:
在这里插入图片描述
在Word Boundary范围内的权重为非0,以外的大部分为0。

1.5结论

本文基于MS-TCN的sota基线提出HPConv和自注意力共识模块,并进行了详细的实验。之后,我们将研究时空多尺度和可学习Word Boundary。

2.介绍相关文章

这篇使用的HPConv基于PyConv:Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition。详解博客请看【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值