【论文笔记】对比学习(Contrastive Learning)音频表示框架（COLA）

最新推荐文章于 2024-02-23 16:59:19 发布

Dr. 卷心菜

最新推荐文章于 2024-02-23 16:59:19 发布

阅读量2.5k

点赞数 2

分类专栏：论文笔记 Pytorch深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/veritasalice/article/details/110043477

版权

Pytorch深度学习同时被 2 个专栏收录

14 篇文章

订阅专栏

论文笔记

2 篇文章

订阅专栏

文章目录

Contrastive Learning在CV领域风生水起，涌现了一批非常优秀的成果，例如：针对ImageNet有Google的SIMCLR, Facebook的MoCo, 和强化学习的CURL。在音频领域却少有研究。

最近Google发了一篇文章，讲述了通过对比学习到音频的通用表达。
Contrastive Learning of General-Purpose Audio Representations

1. 对比学习 Contrastive Learning

首先介绍一下对比学习。

Contrastive self-supervised learning techniques are a promising class of methods that build representations by learning to encode what makes two things similar or different.

对比学习的核心思想是学习这个事物与其他事物之间的差异，而非这个事物本身。就像我们小时候在学习认识狗和猫，我们已经认识了的标准是：能够分辨他们的不同点，而不是它们“有眼睛，有鼻子，有嘴，有毛”这些相同点。
所以，表示学习的重点不是学习到所有的细节特征，而是学习到能够区别自身和其他样本的区别就好。

在这里插入图片描述

2. COLA 介绍

COLA是应用于音频的预训练框架。
对于每个音频样本，作者选出该音频样本的两个片段，一个片段作为anchor A，一个作为positive P,对于该音频样本，选出training batch中的其他的音频样本作为distractor D。

在这里插入图片描述

这样的方法有两个优点：

有很多distractor让训练的过程变得困难，使得模型学到更有意义的表达。
使用同一个batch中的其他样本作为distractor，节约了distractor的生成、计算和存储成本。

1) similarity measurement

COLA使用的是Bi-linear similarity，作者证明了它比cosine相似性度量提升了7%的准确率。

2) loss function: cross entropy

在这里插入图片描述
更多实验细节见论文：Contrastive Learning of General-Purpose Audio Representations

3. 模型评估

1) 线性模型评估

COLA的encoder部分是用EfficientNet-B0在AudioSet（around 1M audio clips）训练得到的。然后把得到的特征向量输入一个线性分类器去做目标任务。
我们认为线性分类器得到的监督学习的结果越好，模型学到的表达越好。
文章中作者写道COLA比其他方法（如triplet loss）在正确率上能够提高20%。