李宏毅DLHLP.26.Audio BERT.2/2

最新推荐文章于 2023-08-01 13:14:37 发布

oldmao_2000

最新推荐文章于 2023-08-01 13:14:37 发布

阅读量578

点赞数

分类专栏：李宏毅.DLHLP2020（完结）

本文链接：https://blog.csdn.net/oldmao_2001/article/details/113772330

版权

李宏毅.DLHLP2020（完结）专栏收录该内容

31 篇文章 42 订阅

订阅专栏

文章目录

介绍
AALBERT. BY 纪伯翰
Self-attentions By 杨书文

介绍

本门课程是2020年李宏毅老师新课：Deep Learning for Human Language Processing（深度学习与人类语言处理）
课程网站
 B站视频
公式输入请参考：在线Latex公式
上节课提到了李宏毅老师团队做的一个Mockingjay模型，在Mockingjay的后继工作有三个模型，上节课讲了一个，这节课讲剩下两个。

AALBERT. BY 纪伯翰

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

Recap: ALBERT

是BERT的轻量化版本，用更少的参数来达到BERT的效果。主要有如下三点：
Factorize Embedding Matrix
Share Parameters across layer
Model Configuration between BERT

Factorize Embedding Matrix

参数减少，主要体现在：
Original BERT:
30000 x 768 = 23.04M

ALBERT:
30000 x128 = 3.8M
128 x 768 = 0.098M
Total: 3.898M
原始的BERT的词表大小是3W，每个词向量维度是768.
ALBERT先将768的输入降维到128，在进行计算时，先加一个投影层（简单的linear的变换），把128还原回768大小，这样做可以节省很多内存。
在这里插入图片描述

Share Parameters across layer

原始的BERT有12层transformer，参数都不一样。
ALBERT则把这12层transformer改为一个，然后loop 12次。这样做表现也没掉太多。这个是减少参数最大的地方。
在这里插入图片描述

Model Configuration between BERT

ALBERT提供了四种模型选择。下表中可以看到不同模型在设置上有什么不一样的地方。
在这里插入图片描述
二者在几个下游任务的表现：

这里虽然ALBERT看上去，它的xxlarge模型效果不错，而且参数量也没有BERT的large多，但是它的hidden layer维度很大，是4096，因此它的速度是要慢不少的。

AALBERT

先把AALBERT和ALBERT做一下比较：
在这里插入图片描述
ALBERT的输入带有Mask的句子，而AALBERT则是Mask的Mel Spectrogram。
与mockingjay的比较：

可以看到，在参数共享上二者有不同

预训练阶段，二者都是用mask过的mel spetrogram进行训练，得到结果经过最后那个黄色的predict head，得到的结果和groud truth进行L1 norm loss。
LibriSpeech 360 hours dataset, 500k step, batch size 48.
下面看下下游任务的效果：

Phoneme Classification

有两个场景：
Weighted-sum and fine-tune feature extraction
前者是将每一层设置一个权重，然后学习这个权重，每层的参数不变，最后将每层的结果加权求和做平均得到最后的表征。
在这里插入图片描述
后者是将下图中蓝色的部分的参数进行finetune

其实和mockingjay套路一样
分类器描述：Utilizing MLP classifier behind representation to train phoneme classification task.
结果：

不同训练数据量的实验

Speaker Identification

也有两种场景：
Utterance-level
Frame-level
前者：
一段声音信号经过模型会抽取得到一排vector，然后再对这一排vector应用一个mean pooling，合成一个vector，然经过linear classifier进行分类。
Utilizing mean pooling over an utterance to generate utterance-level representation.
Simple linear classifier need to train in the Utterance-level speaker identification

在这里插入图片描述
后者：
Classify Each frame-level representation to corresponding speaker.
Simple linear Classifier need to train in the frame-level speaker identification
不对抽取出来的vector做pooling操作，而是每个vector都做一次分类操作。

Overall Performance
在这里插入图片描述

Self-attentions By 杨书文

这一节主要是讲用Self-attention来训练reconstruction loss的原理，里面有很多可视化的内容，我就不写太细了，涉及到很多图。因为传统的attention任务中往往是有指定某个attention的对象，例如分辨男女，那么attention可能会关注声音频率，但是在BERT里面，并没有指明什么任务，直接用的是reconstruction loss为目标进行训练的，那么这样训练出来的模型attention到底是什么样子呢？

在这里插入图片描述
最后结论如下，全局attention还在研究中。

oldmao_2000

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
李宏毅DLHLP.26.Audio BERT.2/2

文章目录介绍AALBERT. BY 纪伯翰Recap: ALBERTFactorize Embedding MatrixShare Parameters across layerModel Configuration between BERTAALBERT介绍本门课程是2020年李宏毅老师新课：Deep Learning for Human Language Processing（深度学习与人类语言处理）课程网站B站视频公式输入请参考：在线Latex公式上节课提到了李宏毅老师团队做的一个Mock
复制链接

扫一扫