Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning

Abstract & Introduction & Related Work

  • 研究任务
    自动音频字幕
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    1. 我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法
    2. 为了生成字幕,我们采用了广泛使用的transformer解码器
  • 实验结论
    我们的结果将以前报告的最高SPIDEr从16.2提高到17.3

在这里插入图片描述

Encoder

一共有 N t N_t Nt 个 CNN块,每个wave-block里面还有七个一维CNN卷积

namekernel_sizestridedilationpadding
C N N t 1 , t 4 , t 7 n t CNN_{t_1,t_4,t_7}^{n_t} CNNt1,t4,t7nt1110
C N N t 2 , t 3 n t CNN_{t_2,t_3}^{n_t} CNNt2,t3nt3111
C N N t 5 , t 6 n t CNN_{t_5,t_6}^{n_t} CNNt5,t6nt3122

通道数为C
在这里插入图片描述
BN是batch normalization

H t 0 = X t H_t^0 = X_t Ht0=Xt
在这里插入图片描述
所有的CNN都是在X上沿着时间顺序进行操作,使得其能学习到局部信息
在这里插入图片描述
C是通道数,所有的操作都是沿着输出的时间维度进行的
在这里插入图片描述
每个二维卷积后都接上一个ReLU

E t f E_{tf} Etf有N个二维卷积块

2D CNN ( S − C N N n t f ) (S-CNN^{n_{tf}}) (SCNNntf) -> leaky ReLU-> 2D CNN ( P − C N N t f n t f ) (P-CNN^{n_{tf}}_{tf}) (PCNNtfntf)
在这里插入图片描述
S − C N N n t f S-CNN^{n_{tf}} SCNNntf有五个不同的5 * 5卷积核,步幅为1,填充为2,用来学习输入的每一个通道中的时间频率模式

P − C N N t f n t f P-CNN^{n_{tf}}_{tf} PCNNtfntf有一个正方形卷积核 size>1,步幅为1,填充为2,PCNN用来学习不同通道的SCNN卷积的输出
在这里插入图片描述在这里插入图片描述
S-CNN输入通道为1,输出通道跟temp一样
在这里插入图片描述
E m e r g e E_{merge} Emerge有一个二维 C N N m , F N N M CNN_m,FNN_M CNNmFNNM
CNNm 卷积核大小为5 * 5,步幅为1,dilation为1,填充为2,两个输入通道一个输出通道

在这里插入图片描述

Decoder

使用transformer的decoder作为我们的解码器,
用来全连接层来将独热编码的单词进行embedding抽取器,一个位置信息编码处理, N d e c N_{dec} Ndec 个解码块,一个全连接层在最后作为分类器,分类器和编码器的全连接层权重通过单词和字幕共享

每一个解码块有一个masked多头注意力,一个层归一化处理,其他一个作用于Z的多头注意力,再一个层归一化,一个全连接层,再接一个其他的层归一化
在这里插入图片描述
在这里插入图片描述

Evaluation

在这里插入图片描述

Conclusion

在本文中,我们提出了一个新的AAC架构,基于卷积和前馈神经网络,称为WaveTransformer(WT)。WT专注于从音频中学习长时间和时间频率信息,并使用Transformer模型的解码器将其与文本表达出来。我们使用AAC DCASE挑战赛中采用的数据集和指标对WT进行了评估,并将我们的方法与以前的SOTA方法和DCASE AAC基线进行了比较。获得的结果表明,学习时间频率信息,结合良好的语言模型,可以导致良好的AAC性能,但纳入长的时间信息可以提高获得的分数

Remark

写的有点臭,让人看着容易乱

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值