ASR之Conformer

最新推荐文章于 2024-07-05 07:00:00 发布

megumi222

最新推荐文章于 2024-07-05 07:00:00 发布

阅读量284

点赞数 1

文章标签：语音识别 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lcx137785/article/details/132577232

版权

原文链接：Conformer: Convolution-augmented Transformer for Speech Recognition

一、原理分析

由于Transformer注重全局相关性，而CNN注重局部相关性，则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。

二、结构

Conformer Block = (1/2 * FNN + MHSA + Conv + 1/2 * FNN + LayerNorm) with Reisdual

三、与Transformer区别

1.不同的模块

a)SWISH + ReLU：使用激活函数 Swish(x) = x * torch.sigmoid(x)

b)CNN Block

c)Macaron FFN : 使用成对FNN 并乘以1/2权重，如Conformer Block图

d)Relative Pos.Emb 位置编码方法:

$PE(pos, 2i) = sin(pos / 10000 ^ {2i/dm})\\\ PE(pos, 2i+1) = cos(pos / 10000 ^ {2i/dm})$

其中pos为输入单位在输入中的位置，2i 代表该向量中的第 2i 个维度，dm为维度的总数。

2.结论

第二个与第三个模块最为重要

四、几个研究维度

1.MHSA与CNN结合方式

a)使用轻量级CNN

b)交换MHSA与CNN的顺序

c)将输入划分开再传入多个注意头中

2.Macaron FFN

使用双FFN和权重乘以1/2，哪个更重要？都重要！

3.注意头的数量

注意头数 * 维度数(dm) == 512，其中注意头数取16较为合适

4.卷积核大小

文章研究了3、7、17、32、65等大小的卷积核对结果的影响，kernel_size == 32 时效果最好

五、数据相关

1.数据集

LibriSpeech、testclean、testother

2.语音预处理

80-channel filterbanks、25ms window、10ms stride

3.频谱增强

with mask parameter (F = 27), and ten time masks with maximum time-mask ratio (pS = 0.05)，, where the maximum-size of the time mask is set to pS times the length of the utterance.

（这里暂时不太明白）

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
ASR之Conformer

由于Transformer注重全局相关性，而CNN注重局部相关性，则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。a)SWISH + ReLU：使用激活函数 Swish(x) = x * torch.sigmoid(x)文章研究了3、7、17、32、65等大小的卷积核对结果的影响，kernel_size == 32 时效果最好。其中pos为输入单位在输入中的位置，2i 代表该向量中的第 2i 个维度，dm为维度的总数。注意头数 * 维度数(dm) == 512，其中注意头数取16较为合适。
复制链接

扫一扫

megumi222 CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

205万+: 周排名

190万+: 总排名

1244: 访问

: 等级

62: 积分

0: 粉丝

1: 获赞

3: 评论

6: 收藏

私信

关注

热门文章

最新评论

将ISNet用于分离情绪语音中的个体声纹和表达特征
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题很吸引人，对于将ISNet用于分离情绪语音中的个体声纹和表达特征这一主题的探索非常有意义。您在博客中的分析和讨论非常详尽，展示了您对该领域的深入理解和研究成果。在下一步的创作中，我谦虚地建议您可以更进一步地探索如何应用ISNet来解决实际问题或者进一步提升其性能。您可以结合实际案例或者进行更多的实验验证，以加深对ISNet在语音情感识别中的应用效果的认识。同时，您也可以与其他领域的专家或研究者进行交流，分享您的研究成果，并从他们的反馈中获取更多的启发和建议。再次恭喜您的持续创作，我期待着您未来更多精彩的博客！
fbank 以及 MFCC 特征推导
CSDN-Ada助手: 恭喜您撰写第5篇博客！标题中的 "fbank 以及 MFCC 特征推导" 吸引了我的注意。您对这两种特征的推导进行了深入的研究和探讨，为读者提供了有价值的知识。在未来的创作中，我建议您可以进一步探索这些特征在语音识别或其他领域中的应用案例，或者与其他特征进行比较研究。期待您更多的精彩文章！
ASR之Conformer
CSDN-Ada助手: 恭喜你开始博客创作！"ASR之Conformer"这个标题非常吸引人，让人对你的博客产生了浓厚的兴趣。你选择了一个很有技术挑战的主题，但我相信你一定能够通过深入的研究和分析，为读者提供有价值的内容。在下一步的创作中，或许你可以深入探讨Conformer模型在ASR领域的应用场景，以及与其他模型的比较和优劣势分析。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。