CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING

爱睡觉的Raki

已于 2022-02-22 15:36:25 修改

阅读量1.6k

点赞数

分类专栏： Audio 读paper 文章标签： transformer 深度学习人工智能语音识别神经网络

于 2022-02-22 15:28:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/123069005

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

6 篇文章 1 订阅

订阅专栏

本文探讨了在自动音频字幕(AAC)任务中，利用预训练模型和seq2seq架构，通过CNN14和ResNet54作为encoder，Transformer的decoder进行音频处理。实验结果显示，未进行微调的迁移学习方法实现了SPIDEr score的0.246和0.285。研究强调了在大规模数据集上预训练模型的优势，且不进行fine-tune的效果反而更好，引发关于模型学习能力的疑问。

摘要由CSDN通过智能技术生成

Abstract & Introduction & Related Work

研究任务
AAC（自动音频字幕）
已有方法和相关工作
面临挑战
创新思路
使用预训练模型，seq2seq模型使用CNN14和ResNet54作为encoder，transformer的decoder
实验结论
SPIDEr score of 0.246 and 0.285

PROPOSED MODEL

System Overview

在这里插入图片描述

Pre-Processing

输入特征使用了log-mel频谱图特征。音频数据的采样频率为44.1kHz，我们采用了1024大小的汉恩窗口，重叠率为50%。从每个窗口帧中，我们提取了64个对数梅尔波段的能量。对于时间窗口的数量，我们计算了样本数据集中的最大时间窗口数T。对于我们模型上的固定大小的输入特征，我们将时间维度填充为T大小的零

word embedding用word2vec

Data Augmentation

Spec Augment[8]作为一种数据增强方法被应用于更强大的训练。通过Spec Augment，在我们将对数谱图输入到CNN14或ResNet54编码器之前，频率掩码和时间掩码被随机地应用到对数谱图上

Pretrained Audio Neural Networks using AudioSet

预训练的PANNs用来处理输出，后面接encoder
在这里插入图片描述

Proposed Model

我们采用从PANNs学到的预训练网络（CNN14，ResNet54）作为AudioSet，并使用它们作为我们的编码器，把预训练模型的参数冻结

EXPERIMENTS

在这里插入图片描述

CONCLUSION

没有fine-tune的迁移学习表现最好

Remark

使用了在大规模数据集上预训练的迁移模型，并且不fine-tune效果更好？？我表示非常疑惑，那是不是说明你这个模型并不能学到什么东西，奇奇怪怪

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。