《深度学习》学习笔记（四）

白炎灵

已于 2022-04-15 17:33:32 修改

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习

于 2022-04-14 15:55:14 首次发布

本文链接：https://blog.csdn.net/weixin_43135165/article/details/124170706

版权

深度学习专栏收录该内容

21 篇文章 6 订阅

订阅专栏

本篇文章对应的是自注意力机制（上和下）和transformer（上和下）

文章目录

self-attention
transformer

self-attention

在这里插入图片描述
Vector Set as Input.
声音讯号、Graph等都可以看作是一组向量。

output

在这里插入图片描述
上面的输出与输入是一样的：词性标注POS tagging、HW2（音标）、social graph中每个人的分类结果

上面的输出是只有一个标签：情感分析（sentiment analysis）、HW4（speaker辨识）、hydrophilicity

第三种情况是模型自己决定标签的个数。
真正的语音辨识是seq2seq

sequence labeling

细讲第一种情况Each vector has a label.
在这里插入图片描述
带有黑色边框的vector是考虑了整个sequence的信息

process in detail

$a^1$ 和 $a^2$ 两个向量的关联度： $\alpha$ 有多种计算方式，下面这种是比较常见的，也是transformer中使用的方式。
在这里插入图片描述
关联性计算过程如下：

从 $\alpha$ 到 $\alpha'$ 也不是非一定要用soft-max，relu函数也是可以的。

接下来从 $\alpha'$ 到 $b^1$ ，计算公式为： $b^1=\sum_i\alpha'_{1,i}v^i$
在这里插入图片描述

self-attention其实就是在讲如何从a到b，接下来从矩阵的角度讲解：

$O$ 就是输出

需要学习的参数为： $W^q$ 、 $W^k$ 、 $W^v$

multi-head self-attention

Different types of relevance
翻译或者语音辨识等问题多个head效果要好一些。
在这里插入图片描述

positional encoding

No position information in self-attention.
Each position has a unique positional vector $e^i$
在这里插入图片描述
添加了位置信息。

目前提出的positional encoding方法有上面几种。

Self-attention v.s. CNN

CNN可以看做简化版的self-attention
在这里插入图片描述

Self-attention v.s. RNN

在这里插入图片描述

Self-attention for Graph

在这里插入图片描述

transformer

transformer就是seq2seq的model
这就是前面介绍的第三种情况
The output is determined by model.
在这里插入图片描述
世界上有很多语言是没有文字的！！所以语音辨识有些是做不了的，直接speech translation即可。
接下来的部分，就是在介绍seq2seq的应用。

Encoder

encoder中一个block如下：
在这里插入图片描述

Decoder

AT（Autoregressive）

接下来把语音辨识作为例子
1.
在这里插入图片描述
2.“机”这个字作为输入

Encoder与Decoder的比较：

Masked Self-attention

Decoder -Non-autogressive(NAT)

NAT速度要更快一些，一步产生所有的output
在这里插入图片描述

Transformer

在这里插入图片描述

training

其实就是很多个分类问题
在这里插入图片描述

Teacher Forcing: using the ground truth as input.
把正确的答案当作decoder的输入。
Beam Search

有时候encoder加入随机性之后结果反而会更好。
Accept that nothing is perfect. True beauty lies in the cracks of imperfection.

白炎灵

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《深度学习》学习笔记（四）

本篇文章对应的是自注意力机制（上和下）文章目录self-attentionoutputsequence labelingprocess in detailmulti-head self-attentionpositional encodingSelf-attention v.s. CNNSelf-attention v.s. RNNself-attentionVector Set as Input.声音讯号、Graph等都可以看作是一组向量。output上面的输出与输入是一样的：词性标注PO
复制链接

扫一扫