论文阅读笔记:Hearing Lips Improving Lip Reading by Distilling Speech Recognizers

目录

论文链接

研究背景

 LIBS 的整体框架

序列级知识蒸馏

上下文级知识蒸馏

最长公共子序列 (LCS)

帧级别知识蒸馏 

论文链接

[1911.11502] Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers (arxiv.org)

研究背景

       这篇文章针对由于唇语识别动作具有模糊性,提取判别特征比较困难,所以唇语识别的性能不如语音识别的问题提出了LIBS方法,通过学习语音识别器来加强唇语识别,给定一个预先训练好的语音识别器,然后从语音识别器中提取特征,作为补充线索来帮助唇读器的训练,分为序列级别、上下文级别和帧级别来进行知识蒸馏。

 LIBS 的整体框架

       LIBS 的整体框架,教师处理语音识别,学生网络处理唇读,语音识别器和唇读器都基于注意力的序列到序列架构。

       唇读器输入视频帧序列xv,y是目标字符序列。预训练的语音识别器读入音频帧序列 x^a,输出预测的字符序列 y。同时,编码器隐藏特征ha、序列向量sa、上下文向量ca也可以得到,用来指导唇读器的训练。LIBS方法的训练目标就是最小化损失函数:

      其中 LKD1、LKD2 和 LKD3 构成多粒度知识蒸馏,分别工作在序列级、上下文级和帧级。 λ1、λ2 和 λ3 是相应的平衡权重。

序列级知识蒸馏

       序列级知识蒸馏,序列向量 s包含输入序列的语义信息,对于一个视频帧序列xv和它对应的音频帧序列xa,它们的序列向量sa和sv应该是相同的,因为它们是同一事物的不同表达。因此,序列级知识蒸馏表示为:

       t是一个简单的变换函数(例如线性或仿射函数),把特征嵌入到具有相同维度的空间中。

上下文级知识蒸馏

       对于上下文级知识蒸馏,当解码器在某个时间步预测一个字符时,注意力机制使用上下文向量来总结与当前输出最相关的输入信息。所以如果唇读器和语音识别器在该时间步预测相同的字符的话,上下文向量 cv 和 ca 应该包含相同的信息。所以上下文级别的知识蒸馏应该使得 cv 和 ca 相同。考虑到语音识别的句子可能不完善,RNN 计算具有顺序性,所以即使预测句子中有相同的字符,它们对应的上下文向量也会因为位置不同而不同。

最长公共子序列 (LCS)

       针对这个问题,文章中提出了一种基于最长公共子序列 (LCS) 的过滤方法来细化提取的特征。LCS 比较两个序列,找出两个序列中相同顺序的公共子序列,选择最长的序列。 因为LCS的公共子序列不一定是连续的,所以可以保留了字符之间的相对位置信息。

帧级别知识蒸馏 

       第三个级别是,帧级别知识蒸馏。因为知道视频和音频的对应关系后,如果直接将视频帧特征与对应的音频特征进行匹配的话,由于采样率不同,视频序列和音频序列长度不一致,并且数据的开头或结尾可能出现空白,就无法保证视频和音频严格同步。所以文章提出了通过首先学习视频和音频的对应关系,然后进行帧级别知识蒸馏的方法来解决这个问题。因为视频隐藏特征hv包含与音频特征ha 最相似的信息,并且语音信号包含与视觉信号互补的信息,所以使hv 和ha 相同可以增强唇读器提取视觉特征的能力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值