AUTO-AVSR 自动标注辅助下的视听语音识别

海天瑞声推出「论文解读&技术趋势」系列,分享自然语言处理、智能语音、计算机视觉等最新技术及数据趋势。

视听语音识别由于其对声学噪声的鲁棒性而受到广泛关注。最近,ASR、VSR 和 AV-ASR的性能得到了显着提高,这主要归功于更大的模型和训练集的使用。论文作者提出使用开源的预训练语音识别模型去自动标注不含标签的数据集,然后使用这些标注后的数据去增广AVSR的训练数据。

01 Methodology

论文中提出的Auto-AVSR方法包含两个步骤,如图1所示。第一阶段为一个标注生成系统。在这阶段,作者提出使用预训练的语音识别模型去为未标注视频数据中的语音生成匹配的文本。第二阶段则是一个AVSR模型,包含视觉和语音两个编码模块以及一个合用的解码模块和CTC模块。这里的视觉前端是一个调整后的ResNet-18,网络的第一层是一个时间空间卷积层,包含卷积核大小为5x7x7,布长为1x2x2。时域的后端是一个Conformer的编码模块。同样,ASR编码器由一个1D ResNet-18和接着的Conformer层组成。ASR和VSR编码器的输出通过多层感知机(MLP)融合,然后输入到共享的CTC和Transformer解码器模块中。

图片

Figure 1. AV-ASR architecture overview. In the first stage, a pre-trained ASR model is leveraged to produce automatically generated transcriptions for unlabelled audio-visual datasets. Then, these unlabelled datasets are combined with the labeled training sets, including LRS2 and LRS3, for training. The frame rate of audio and visual features from the ASR and VSR encoders is 25 frames per second (fps).

02 更好的ASR模型是否可以为VSR提供更好的文本标注?

作者研究了了包括在LibriSpeech上预训练的最先进的Conformer-Transducer模型,以及HuBERT、wav2vec 2.0和Whisper等多个预训练ASR模型的性能。表1中的结果表明,对ASR模型进行更大数据的预训练并不总是导致更高的VSR和ASR性能。

03 使用的无标签数据量的影响

表2显示了改变无标签数据小时数对LRS3上ASR和VSR模型性能的影响。结果显示,通过将更多从未标记数据中自动转录的数据用于训练,可以在LRS2和LRS3数据集上实现更高的性能。此外,作者建议当使用超过1,578小时的无标签训练数据时,ASR模型的改善是很少的,表明ASR性能可能已经趋于饱和。

04 和最佳的模型的比较

作者将所提出的方法与最先进的模型的词错误率(WER)进行了比较。对于LRS2来说,可以明显看出,所提出的仅视觉、仅音频以及音频-视觉模型将最佳性能进一步推向了WER分别为14.6%、1.5%和1.5%。对于LRS3,通过所提出的方法训练的仅视觉模型具有19.1%的WER,仅次于使用26倍训练数据的ViT3D-CM系统(WER为17.0%)

05 对噪声的鲁棒性

作者讨论了所提出方法对噪音的鲁棒性。结果表明,在低噪音存在时,仅音频模型的性能接近于音频-视觉对应模型,而随着噪音的增加,性能差距变得更大。

06 总结

作者提出了一种简单而有效的方法,通过使用预训练的ASR模型自动转录未标记的视频数据,从而扩展音频-视觉数据以用于语音识别。作者建议通过使用该方法去标注更多未标注的数据来提高ASR、VSR和AVSR的性能。此外,所提出的音频-视觉模型对噪音的鲁棒性比其对应的仅音频的模型更强。

The CNVSRC 2023 Challenge

为了推动AVSR技术的发展并为AVSR社区做出贡献,海天瑞声与清华大学、北京邮电大学和语音之家在NCMMSC 2023上共同举2023中文连续视觉语音识别挑战赛(CNVSRC)。

主办方为参与者提供了三个数据集,用于训练、验证和评估系统。CN-CVS是最大的开源普通话音频-视觉数据集,用作闭集的训练数据。CNCSRC-Single和CNVSRC-Multi分别用作单讲话者和多讲话者ASRV任务的开发和测试集。在这里,CNVSRC-Single包括来自互联网的100多小时的单讲话者视频数据,而CNVSRC-Multi包含朗读和公开演讲。

CNVSRC-Multi中的朗读数据来自海天瑞声赠与清华大学的「中文普通话音视频识别库(手机)」数据集。海天瑞声向清华大学赠与数据集,以促进科学事业发展。

CNVSRC 2023 报名传送门  http://cnceleb.org/competition

图片

Table 1. Impact of the pre-trained ASR models used to generate automatic transcriptions from unlabelled data on the performance of VSR/ASR models on the LRS3 dataset. † and †† denote the word error rate (WER) reported on the LibriSpeech test-clean set and LRS3 test set, respectively. “CM” denotes Conformer. “V” and “A” denote the visual-only and audio-only models trained on LRW, LRS2, LRS3, VoxCeleb2, and AVSpeech (using the automatically-generated transcriptions from the corresponding pre-trained ASR model), with a total of 3 448 hours.

图片

Table 2. Impact of the size of additional training data (from AVSpeech and VoxCeleb2) on the WER (%) of audio-only and visual-only models evaluated on LRS3. All models are initialized from a model pre-trained on LRW and trained on LRS2, and LRS3 plus X % hours of VoxCeleb2 and AVSpeech. “P” and “U” denote the amount of additional data in percentages and hours, respectively. “T” denotes the total amount of training data (hours).

图片

Table 3. WER (%) of the proposed audio-only, visual-only, and audio-visual models on the LRS2 dataset. † The total hours are counted by including the datasets used for both pre-training and training. The proposed model trained on 818 hours uses LRW, LRS2, and LRS3. Our model trained on 3 448 hours uses LRW, LRS2, LRS3, VoxCeleb2, and AVSpeech.

图片

Table 4. WER (%) of the proposed audio-only, visual-only, and audio-visual models on the LRS3 dataset. ‡ The total hours are counted by including the datasets used for both pre-training and training. Our model trained on 818 hours uses LRW, LRS2, and LRS3. Our model trained on 1 902 hours uses LRW, LRS3, and VoxCeleb2. Our model trained on 3 448 hours uses LRW, LRS2, LRS3, VoxCeleb2, and AVSpeech.

图片

Table 5. WER (%) of the proposed audio-only and audio-visual models as a function of the noise levels on the LRS3 dataset. The babble noise from the NOISEX dataset is used for training while one of the SNR levels from [-5 dB, 0 dB, 5 dB, 10 dB, 15 dB, 20 dB, ∞ dB] is selected with a uniform distribution. For testing, the pink and white noise from the Speech Commands dataset is added to the raw audio waveforms with a specific SNR level. ‡ denotes the noise type used in both training and test sets.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值