随笔记录——NLP与ASR的数据增强

最新推荐文章于 2023-12-29 15:12:26 发布

Law-Yao

最新推荐文章于 2023-12-29 15:12:26 发布

阅读量3.7k

点赞数

分类专栏：自动语音识别自然语言处理算法框架文章标签：语音识别自然语言处理数据增强人工智能深度学习

本文链接：https://blog.csdn.net/nature553863/article/details/123975264

版权

本文探讨了NLP和ASR中的数据增强技术，重点介绍了SpecAugment和Cutoff。SpecAugment针对ASR的声学特征进行时域和频域的掩码操作，而Cutoff则对NLP模型的Embedding层输出进行Token、Feature和Span掩码，以提升模型的稳健性和泛化能力。

摘要由CSDN通过智能技术生成

自然语言处理（NLP: Natural Language Processing）与语音识别（ASR: Automatic Speech Recognition）都是典型的序列识别任务，现阶段皆可以按Transformer模型架构进行建模处理，如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。

Transformer模型的输入，表示为Sequence embeddings（序列特征），其中NLP的输入Embedding、表示Token的高维矢量编码，ASR的输入特征、则是经过语音信号采样、分帧、预加重、加窗、FFT等处理的声学特征（Acoustic features，如LogfBank、MFCC、Spectrum）。

数据增强的目的，是通过对样本进行变换，以扩增数据量、并丰富样本分布，但要求变换后样本能保持原有的标签语义。因此，数据增强需同时兼顾相似性与多样性。对序列特征进行随机掩码处理，可实现NLP或ASR模型训练的数据增强，从而提升模型的稳健性与泛化性，典型如ASR的SpecAugment、与NLP的Cutoff。