本文介绍了多种常见的数据增加的方法,包括传统的(翻转,旋转等),使用gan进行数据生成的,最好作者提出了自己的方法,并取得了跟state of the art类似的效果。
1.related work
作者指出一些常见的防止过拟合的方法:
在模型方面
(1)对weight加上正则项,(2)drop out ,(3)BN(对每一层进行标准化),(4)在大规模数据集预训练然后做迁移学习
在数据方面
(1)几何形状和颜色的数据增强(翻转,裁剪,平移),这几个方法都是对原始图片做一个映射,即Y = WX+b,其中X是原始的图片,Y是数据增强的图片。(3)使用gan进行生成数据,比如进行风格的转化
2.network
对于数据增强的网络,作者将两张同一类图片concate在一起作为输入,从而得到一张新生成的图片,并将这一张新生成的图片和原始的两张图片一起放入classifation网络进行训练,分类的loss会回传给上述两个网络从而更新其权重,这是第一个loss。同时,作者也尝试引入第二个loss,即计算新生成的图片和该类中任意挑选出来的图片之间的差别作为loss,比如MSE loss,但是该方法的效果并不冥想。
3.实验结果
该数据增强的方法总是比不使用数据增强的效果好,但是其不一定优于传统的数据增强的方法,作者建议可以尝试先使用传统的数据增强的方法,再使用其提出的方法。
个人觉得该方法比较适应于语音的数据增强,对提出来的特征直接进行数据增强而避免对原始语音进行数据增强。这是因为对原始语音进行数据增强之后还需要提取特征,大大增加了训练模型的时间。