文章目录
Contrastive Learning在CV领域风生水起,涌现了一批非常优秀的成果,例如:针对ImageNet有Google的SIMCLR, Facebook的MoCo, 和强化学习的CURL。在音频领域却少有研究。
最近Google发了一篇文章,讲述了通过对比学习到音频的通用表达。
Contrastive Learning of General-Purpose Audio Representations
1. 对比学习 Contrastive Learning
首先介绍一下对比学习。
Contrastive self-supervised learning techniques are a promising class of methods that build representations by learning to encode what makes two things similar or different.
对比学习的核心思想是学习这个事物与其他事物之间的差异,而非这个事物本身。 就像我们小时候在学习认识狗和猫,我们已经认识了的标准是:能够分辨他们的不同点,而不是它们“有眼睛,有鼻子,有嘴,有毛”这些相同点。
所以,表示学习的重点不是学习到所有的细节特征,而是学习到能够区别自身和其他样本的区别就好。
2. COLA 介绍
COLA是应用于音频的预训练框架。
对于每个音频样本,作者选出该音频样本的两个片段,一个片段作为anchor A,一个作为positive P,对于该音频样本,选出training batch中的其他的音频样本作为distractor D。
这样的方法有两个优点:
- 有很多distractor让训练的过程变得困难,使得模型学到更有意义的表达。
- 使用同一个batch中的其他样本作为distractor,节约了distractor的生成、计算和存储成本。
1) similarity measurement
COLA使用的是Bi-linear similarity,作者证明了它比cosine相似性度量提升了7%的准确率。
2) loss function: cross entropy
更多实验细节见论文:Contrastive Learning of General-Purpose Audio Representations
3. 模型评估
1) 线性模型评估
COLA的encoder部分是用EfficientNet-B0在AudioSet(around 1M audio clips)训练得到的。然后把得到的特征向量输入一个线性分类器去做目标任务。
我们认为线性分类器得到的监督学习的结果越好,模型学到的表达越好。
文章中作者写道COLA比其他方法(如triplet loss)在正确率上能够提高20%。
2) 精细调整评估(fine-tuning evaluation)
另一个评估模型好坏的维度是调整模型以适应各种各样的任务(downstream task)。
作者介绍COLA预训练模型要比其他从头训练的模型正确率提高1.2%。