随笔记录——NLP与ASR的数据增强

本文探讨了NLP和ASR中的数据增强技术,重点介绍了SpecAugment和Cutoff。SpecAugment针对ASR的声学特征进行时域和频域的掩码操作,而Cutoff则对NLP模型的Embedding层输出进行Token、Feature和Span掩码,以提升模型的稳健性和泛化能力。
摘要由CSDN通过智能技术生成

自然语言处理(NLP: Natural Language Processing)与语音识别(ASR: Automatic Speech Recognition)都是典型的序列识别任务,现阶段皆可以按Transformer模型架构进行建模处理,如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。

Transformer模型的输入,表示为Sequence embeddings(序列特征),其中NLP的输入Embedding、表示Token的高维矢量编码,ASR的输入特征、则是经过语音信号采样、分帧、预加重、加窗、FFT等处理的声学特征(Acoustic features,如LogfBank、MFCC、Spectrum)。

数据增强的目的,是通过对样本进行变换,以扩增数据量、并丰富样本分布,但要求变换后样本能保持原有的标签语义。因此,数据增强需同时兼顾相似性与多样性对序列特征进行随机掩码处理,可实现NLP或ASR模型训练的数据增强,从而提升模型的稳健性与泛化性,典型如ASR的SpecAugment、与NLP的Cutoff。

SpecAugment

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值