自监督学习在语音和影像上的应用
语音
语音版测试集SUPERB:
影像
横轴是各类模型,纵轴是各模型的效能。
怎么训练语音版、影像版的BERT?
-
Generative Approaches(BERT series、GPT series)
语音上:
BERT与文字处理的差别:
①对语音mask时,不要mask一个连续的向量,因为相邻的语音向量含义相近,当只mask掉一个连续的向量时,通过两侧向量做差往往易得到mask掉的向量。所以需要mask时,mask掉多个连续向量。
②对语音向量做mask时,可以不在时间的维度上mask,而是在向量的维数上进行mask。有利于学到更多语者的信息。
GPT系列:GPT在文本中是用来预测下一个文字token,在语音中亦可预测下一个语音向量,从上面可知相邻语音有相近性,易于预测,这太简单了使模型学不到有用的东西,因此我们往往会预测一段连续的语音。
影像上:
综上,存在的问题:相较于文字,语音和影像包含了大量的细节,所以让模型将一段语音或一段影像完整的还原出来是非常困难的,相较于文字是用token来表示的,语音和影像里包含了更多的资讯,处理起来非常困难。
-
Predictive Approach
例①:
例②:将一张大的图片切成若干块,让机器预测块②在块①的哪个方向。
-
Contrastive Learning
通过数据增强,将图片进行切块、变色处理,因为他们属于同一张图片,二者向量会很接近。
太神奇了
有点迷糊了
选取一组合适的负例是非常困难的,不能选的太简单的,也不能选太难的,所以这个方法的执行也存在一定的难度,以下两种方法可避开选择Negative Examples这件事。
- Bootstrapping Approaches
只用positive训练,会导致不论什么图片都会输出和原图相近的向量
-
Simply Extra Regularization