摘要
Zipformer[1] 是新一代 kaldi 团队最新研发的序列建模模型。相比较于 Conformer[2]、Squeezeformer[3]、E-Branchformer[4] 等主流 ASR 模型,Zipformer 具有效果更好、计算更快、更省内存等优点。Zipformer 在 LibriSpeech、Aishell-1 和 WenetSpeech 等常用数据集上取得了当前最好的 ASR 结果。
本期文章将解析 Zipformer 的具体创新点,主要包括:
- 高效的模型结构:Downsampled encoder structure 和 Zipformer block
- 新 normalization:BiasNorm
- 新激活函数:Swoosh
- 新优化器:ScaledAdam 优化器
- 激活值限制:Balancer 和 Whitener
建议读者阅读论文了解更多细节: