自然语言处理(NLP: Natural Language Processing)与语音识别(ASR: Automatic Speech Recognition)都是典型的序列识别任务,现阶段皆可以按Transformer模型架构进行建模处理,如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。
Transformer模型的输入,表示为Sequence embeddings(序列特征),其中NLP的输入Embedding、表示Token的高维矢量编码,ASR的输入特征、则是经过语音信号采样、分帧、预加重、加窗、FFT等处理的声学特征(Acoustic features,如LogfBank、MFCC、Spectrum)。
数据增强的目的,是通过对样本进行变换,以扩增数据量、并丰富样本分布,但要求变换后样本能保持原有的标签语义。因此,数据增强需同时兼顾相似性与多样性。对序列特征进行随机掩码处理,可实现NLP或ASR模型训练的数据增强,从而提升模型的稳健性与泛化性,典型如ASR的SpecAugment、与NLP的Cutoff。
SpecAugment