A COMPARISON OF TRANSFORMER AND LSTM ENCODERDECODERMODELSFORASR

A COMPARISON OF TRANSFORMER AND LSTM ENCODER DECODER MODELS FOR ASR

1.论文摘要

在解决asr任务常用的端到端的模型中对比了Trasnformer 和 Lstm 两种模型结构的效果,并得出了以下结论:
(1)Transformer 相比LSTM来说训练更加稳定但容易过拟合。
(2)采用两层lstm结构作为Transformer encoder中的位置编码的效果更好。
(3)在训练两个模型的过程中需要采用一些预训练和其他策略调整的trick,使得训练稳定且容易收敛。
(4)SpecAugment变体的数据增强方法使得Transformer模型提升了33%, LSTM提升了15%。
最终模型在TED-LIUM-v2数据集上达到了attention based 的端到端模型的最好结果。

2.模型介绍

LSTM-Based

  • Encoder
    采用多层双向LSTM,不同层之间添加了可选的max-pooling 层做下采样。本文中时间域上下采样6倍。
    在这里插入图片描述

  • Decoder
    采用了MLP attention的计算方法, v是可训练的向量,W是可训练矩阵, β i , t \beta_{i,t} βi,t是一个attention 权重的反馈变量
    在这里插入图片描述
    在这里插入图片描述
    其他计算权重 α \alpha α,context vector 方法与其他论文一致。计算decoder state的方法
    在这里插入图片描述
    在这里插入图片描述
    其中 M L P r e a d o u t = l i n e a r ⋅ m a x o u t ⋅ l i n e a r MLP_{read_out}=linear · maxout· linear MLPreadout=linearmaxoutlinear
    同时在encoder端还增加了辅助的ctcloss, 起到帮助收敛以及regularization的效果,但是不将其结果用在decoding中。

  • pretraining
    预训练帮助收敛的技巧:(1)先采用一个小的encoder, 然后step by step 的增加encoder 中的哥哥参数比如depth,number of layers, hidden dimensions 等。 (2)采用learning rate warmup 以及一些正则化的方法例如dropout 和 label smoothing (开始设置较低或disabled 后买你逐渐放开)。(3)采用 curriculum learning的方法

  • initial convolutional network
    在BLSTM layers之前增加卷积层,可能会增加训练的不稳定性,但是能够提高最终的模型效果。

*stable MLP attetion projection
计算energy 的时候设置v为非负的, 因此考虑用下式来计算。
在这里插入图片描述

  • decoupled decoder LSTM
    为了减少训练时间,提出了一种变体,decoder LSTM 只关注ground truth, 而不考虑attention context. 同时不考虑weight feedback,并用dot attention 代替MLP attention.

Transformer-Based

encoder 采用多层self-attention layer + Feedforward layer的组合,其中每一个layer前都要过一个layer normalization ,并且残差连接之前要过一个dropout 层。同时Transformer layer 采用LSTM 作为位置编码,并且与上一个模型一致都做了max-pooling 来做下采样。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • Decoder
    在这里插入图片描述
    在这里插入图片描述
  • pretraining
    encdoer 与 decoder layer 从1开始增加,每迭代一轮layer数增加一倍, hidden dimension采用线性增加的方法。

其他操作

  • 数据增强
    沿时间轴与feature axis 做随机mask.可以显著减少overffitting.
  • 语言模型融合+EOS penalty

3.实验结果

在这里插入图片描述
不同配置的对比实验,可以看出LSTM配置在相同12.5Epoch 的模型结果更好,Transformer 在足够训练时长并添加LM+EOS配置的最终模型效果更好。
在这里插入图片描述
Transformer baseline 相比于lstm 更容易出现过拟合的现象, 数据增强可以缓解过拟合的影响。
在这里插入图片描述
使用LSTM作为positional embedding 以及辅助CTC可以帮助加快收敛并且提升模型的效果。

最终结论:
Transformer based 端到端模型相对于lstm 训练速度更快更稳定且模型效果更好,但容易出现过拟合,可通过数据增强来减少这方面的影响。time reduction使得收敛更快,效果更好。CTC 辅助loss 对两种模型也都有正面作用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 多输入多输出雷达(MIMO Radar)技术近年来的发展引起了人们的广泛关注,该技术通过多路传输方式,使用多个天线与目标进行通信和探测。MIMO雷达波形是实现该技术的关键之一,因为它直接决定了雷达的性能和精度。 MIMO雷达的波形可以分为基于时域、频域和其他非线性波形等几种类型。不同类型的波形呈现出不同的特性,对应着不同的操作模式和优化目标。时域波形具有快速改变的特点,适用于高速运动目标的检测;频域波形则具有较好的抗多径干扰能力,适用于信号传输距离较远的情况。非线性波形则在抗噪声和提高精度方面具有独特的优势。 在不同类型的波形中,采用哪种波形最优,取决于实际应用场景和需要满足的性能指标。例如,当需要检测距离较远的目标时,可以选择LFM或其他频域波形;如果需要高精度探测,可以选择非线性波形等。因此,在设计和应用MIMO雷达波形时,需要综合考虑目标检测精度、距离测量精度、抗干扰性、功耗和硬件成本等各方面因素。 最后,需要指出的是,MIMO雷达技术仍处于快速发展期,未来随着雷达硬件和处理能力的不断提升,对波形的需求和研究也将呈现不断的变化和升级。 ### 回答2: MIMO雷达技术在极化多元化和频谱效率方面具有相对优势。在MIMO雷达系统中,波形设计起着至关重要的作用,对性能指标的提升和成本的控制都有重要影响。本文将对MIMO雷达波形设计进行分析和比较。 在MIMO雷达波形设计中,需要考虑多因素:降低互化干扰、提高信噪比、提高距离分辨率、提高角度分辨率、降低成本等。常见的波形设计方法有线性调频(LFM)信号、随机相位编码(SPC)、强化线性调频(SLFM)信号和多符号信号等。 LFM信号广泛应用于雷达系统中,优点是频谱带宽窄,能够提高距离分辨率和目标精度。缺点是相位噪声和相位失调会大大降低信噪比和目标检测性能。SPC信号较少使用,其主要优点是有较好的码间关系可以降低重复检测事件的概率,而缺点是需要高功率。SLFM信号是由LFM信号和全相位余弦窗函数(CPWC)叠加而成,可以增强距离分辨率和降低旁瓣,缺点是需要较高的功率。多符号信号波形是近年来新发展出来的波形,可以提高距离和角度分辨率,具有很高的频谱效率。缺点是实现起来有一定难度,需要高精度的时钟和数字处理硬件。 不同的波形具有不同的特点和适用场景。选择合适的波形要根据实际需要进行权衡考虑,如制约因素、合适功率、带宽、方位角和开销等方面。在自适应调整系统中,合适的波形可以根据参数动态调整,以兼顾各种因素的平衡。 综上所述,MIMO雷达波形设计是MIMO雷达技术的重要组成部分,是实现MIMO雷达高性能、低成本的关键之一。各种不同的波形设计方法都有其独特的优点和缺点,取决于具体应用的情况,选择合适的波形是实现系统优化的关键。 ### 回答3: MIMO雷达的波形分析和比较 MIMO(多输入多输出)雷达技术是近年来雷达研究领域的热点之一。它通过多发射和多接收天线的方式,实现在同一时间、同一频带内,同时对多个目标进行测量,具有高分辨率、高精度、高容量等优点。MIMO雷达使用不同的波形可以实现不同的性能,因此波形的选择对于MIMO雷达系统的设计和性能至关重要。 我们可以从下面两个方面对MIMO雷达波形进行分析和比较。 一、频率分集波形(Frequency Division Waveform) 频率分集波形是一种常见的MIMO雷达波形,它通过让每个天线单独发射不同频率的调制信号,在接收端采取窄带信号来获取目标信息。频率分集波形的主要优点是其在多径环境下的抗干扰性更好。 而对于缺点,频率分集波形需要在较宽的带宽内使用多个频率,这会导致系统处理数据的时间和硬件复杂度都增加。同时,在遇到距离移位时,不同天线发射信号的相位差会增加,这会导致性能下降。 二、编码波形(Code Division Waveform) 编码波形是一种在不同天线间共享相同频率但具有不同编码序列的波形。它通过在不同接收机中进行相应的解码来获取目标信息。编码波形的主要优点是它提供了更简单的信号处理方式和更快的数据处理速度。同时它还具有更好的目标辨别率以及对于不同距离移位的抗干扰性较好。 而对于缺点,编码波形在遇到多径环境时会表现出相对较差的性能。并且,编码波形的对噪声的抗干扰性相对较弱。 综上所述,不同的MIMO雷达波形具有各自的优缺点。因此,在实际应用中需要根据系统需求和性能因素来选择最为适宜的波形,以提高系统的性能和可靠性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值