论文阅读笔记:Hearing Lips Improving Lip Reading by Distilling Speech Recognizers
这篇文章针对由于唇语识别动作具有模糊性,提取判别特征比较困难,所以唇语识别的性能不如语音识别的问题提出了LIBS方法,通过学习语音识别器来加强唇语识别,给定一个预先训练好的语音识别器,然后从语音识别器中提取特征,作为补充线索来帮助唇读器的训练,分为序列级别、上下文级别和帧级别来进行知识蒸馏。唇读器输入视频帧序列xv,y是目标字符序列。序列级知识蒸馏,序列向量 s包含输入序列的语义信息,对于一个视频帧序列xv和它对应的音频帧序列xa,它们的序列向量sa和sv应该是相同的,因为它们是同一事物的不同表达。
原创
2023-04-27 11:17:50 ·
647 阅读 ·
2 评论