Raki的读paper小记:LEVERAGING STATE-OF-THE-ART ASR TECHNIQUES TO AUDIO CAPTIONING

Abstract & Introduction & Related Work

  • 研究任务
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    1. 使用了最新的ASR技术 in the ESPNet toolkit
  • 实验结论
    SPIDEr score of 0.224 and 0.246

PROPOSED METHODOLOGY

Overview

在这里插入图片描述

Data Augmentation

我们使用SpecAug[12]进行输入数据增强,包括三种变形–时间扭曲、频率屏蔽和时间屏蔽。我们将最大的时间翘曲参数设置为W=5,并随机选择w∈[0, W],使对数玛尔滤波库特征矩阵被w翘曲。频率和时间掩蔽是基于Cutout[13]正则化技术,它掩蔽对数玛尔滤波库矩阵中随机选择的矩形部分。掩码的尺寸是根据最大频率和时间掩码参数 F m = 30 F_m=30 Fm=30 T m = 40 T_m=40 Tm=40 随机选择的

Ensemble Decoding and Shallow Fusion with LM

为了获得更好的预测性能,我们实现了一个集成解码模块,对几个模型解码器输出的注意力得分进行后验平均。我们还使用训练数据中的字幕单独训练了一个word tokenRNN语言模型(RNN-LM)。在推理过程中,我们将解码器和单独训练的RNN-LM与浅层融合[5]结合起来

EXPERIMENTS

在这里插入图片描述

CONCLUSION

验证了ASR技术,conformer-encoder,transformer-decoder,数据增强这些方法是work的

Remark

效果差上一篇paper太多,但是感觉数据增强可以迁移过去

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值