【论文笔记】对比学习(Contrastive Learning)音频表示框架(COLA)


Contrastive Learning在CV领域风生水起,涌现了一批非常优秀的成果,例如:针对ImageNet有Google的SIMCLR, Facebook的MoCo, 和强化学习的CURL。在音频领域却少有研究。

最近Google发了一篇文章,讲述了通过对比学习到音频的通用表达。
Contrastive Learning of General-Purpose Audio Representations

1. 对比学习 Contrastive Learning

首先介绍一下对比学习。

Contrastive self-supervised learning techniques are a promising class of methods that build representations by learning to encode what makes two things similar or different.

对比学习的核心思想是学习这个事物与其他事物之间的差异,而非这个事物本身。 就像我们小时候在学习认识狗和猫,我们已经认识了的标准是:能够分辨他们的不同点,而不是它们“有眼睛,有鼻子,有嘴,有毛”这些相同点。
所以,表示学习的重点不是学习到所有的细节特征,而是学习到能够区别自身和其他样本的区别就好。

在这里插入图片描述

2. COLA 介绍

COLA是应用于音频的预训练框架。
对于每个音频样本,作者选出该音频样本的两个片段,一个片段作为anchor A,一个作为positive P,对于该音频样本,选出training batch中的其他的音频样本作为distractor D。

在这里插入图片描述

这样的方法有两个优点:

  1. 有很多distractor让训练的过程变得困难,使得模型学到更有意义的表达。
  2. 使用同一个batch中的其他样本作为distractor,节约了distractor的生成、计算和存储成本。

1) similarity measurement

COLA使用的是Bi-linear similarity,作者证明了它比cosine相似性度量提升了7%的准确率。

2) loss function: cross entropy

在这里插入图片描述
更多实验细节见论文:Contrastive Learning of General-Purpose Audio Representations

3. 模型评估

1) 线性模型评估

COLA的encoder部分是用EfficientNet-B0在AudioSet(around 1M audio clips)训练得到的。然后把得到的特征向量输入一个线性分类器去做目标任务。
我们认为线性分类器得到的监督学习的结果越好,模型学到的表达越好。
文章中作者写道COLA比其他方法(如triplet loss)在正确率上能够提高20%。

2) 精细调整评估(fine-tuning evaluation)

另一个评估模型好坏的维度是调整模型以适应各种各样的任务(downstream task)。
作者介绍COLA预训练模型要比其他从头训练的模型正确率提高1.2%。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr. 卷心菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值