NLP模型小总结

最新推荐文章于 2024-06-20 02:29:46 发布

Wanncye

最新推荐文章于 2024-06-20 02:29:46 发布

阅读量1.6k

点赞数 1

分类专栏：深度学习基础文章标签： nlp

本文链接：https://blog.csdn.net/weixin_42065178/article/details/124335457

版权

深度学习基础专栏收录该内容

7 篇文章 1 订阅

订阅专栏

位置编码、多头注意力、双向模型

位置编码
多头注意力
双向模型
LSTM
GRU
BERT
Transformer
GPT

位置编码

在这里插入图片描述
位置编码公式如上，感觉大家跟我的疑惑一样，公式肯定是能看懂的，就差个例子。那么，做为Transformer第1个位置( $p o s = 1$ )的输入，维度假设为7维(dmodel=7)，那么他的位置编码如下，位置编码的维度和特征的维度相同，两者相加，就得到了包含位置信息的输入：
$(sin\frac{1}{10000^\frac{0}{128}},cos\frac{1}{10000^\frac{1}{128}},sin\frac{1}{10000^\frac{2}{128}},cos\frac{1}{10000^\frac{3}{128}},sin\frac{1}{10000^\frac{4}{128}},cos\frac{1}{10000^\frac{5}{128}},sin\frac{1}{10000^\frac{6}{128}})$
这么一写，了然了吧？

多头注意力

就是有多个self-attention，每个头都会得到自己的一个注意力系数，最后将这些注意力系数concat，做为最终的注意力。这就是集成学习的思想。

双向模型

单向模型仅能保留过去的信息，因为它看到的唯一输入来自过去。使用双向模型将以两种方式运行您的输入，一种从过去到未来，一种从未来到过去，这种方法与单向的不同之处在于，在向后运行的模型中，保留来自未来的信息并使用两个隐藏状态组合，能够在任何时间点保存过去和未来的信息。可以获得更多的知识。

LSTM

输入输出忘记门

GRU

复位门、更新门；重要性有多大，输出多少。LSTM和GRU相似，在一些情况下GRU胜过LSTM。

BERT

因为BERT是生成语言模型，所以只使用Transformer中的encoder部分。它主要包含两个任务：1. MLM（Mask Language Model），相当于一个完形填空任务；2. NSP（Next Sentence Predict），判断两个句子是不是上下文。训练时，将两个任务的loss相加。在海量单预料上训练完BERT之后，便可以将其应用到NLP的各个任务中了。也是个双向模型。