Raki的读paper小记：LEVERAGING STATE-OF-THE-ART ASR TECHNIQUES TO AUDIO CAPTIONING

最新推荐文章于 2024-07-25 17:51:57 发布

爱睡觉的Raki

最新推荐文章于 2024-07-25 17:51:57 发布

阅读量206

点赞数

分类专栏： Audio 读paper 文章标签：深度学习机器学习 transformer 语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/123069714

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

6 篇文章 1 订阅

订阅专栏

Abstract & Introduction & Related Work

研究任务
已有方法和相关工作
面临挑战
创新思路
1. 使用了最新的ASR技术 in the ESPNet toolkit
实验结论
SPIDEr score of 0.224 and 0.246

PROPOSED METHODOLOGY

Overview

在这里插入图片描述

Data Augmentation

我们使用SpecAug[12]进行输入数据增强，包括三种变形–时间扭曲、频率屏蔽和时间屏蔽。我们将最大的时间翘曲参数设置为W=5，并随机选择w∈[0, W]，使对数玛尔滤波库特征矩阵被w翘曲。频率和时间掩蔽是基于Cutout[13]正则化技术，它掩蔽对数玛尔滤波库矩阵中随机选择的矩形部分。掩码的尺寸是根据最大频率和时间掩码参数 $F_m=30$ 和 $T_m=40$ 随机选择的

Ensemble Decoding and Shallow Fusion with LM

为了获得更好的预测性能，我们实现了一个集成解码模块，对几个模型解码器输出的注意力得分进行后验平均。我们还使用训练数据中的字幕单独训练了一个word tokenRNN语言模型（RNN-LM）。在推理过程中，我们将解码器和单独训练的RNN-LM与浅层融合[5]结合起来

EXPERIMENTS

在这里插入图片描述

CONCLUSION

验证了ASR技术，conformer-encoder，transformer-decoder，数据增强这些方法是work的

Remark

效果差上一篇paper太多，但是感觉数据增强可以迁移过去

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Raki的读paper小记：LEVERAGING STATE-OF-THE-ART ASR TECHNIQUES TO AUDIO CAPTIONING

Abstract & Introduction & Related Work研究任务已有方法和相关工作面临挑战创新思路使用了最新的ASR技术 in the ESPNet toolkit实验结论SPIDEr score of 0.224 and 0.246PROPOSED METHODOLOGYOverviewData Augmentation我们使用SpecAug[12]进行输入数据增强，包括三种变形–时间扭曲、频率屏蔽和时间屏蔽。我们将最大的时间翘曲参数设
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。