Attention——Transformer——Bert——FineTuning——Prompt

最新推荐文章于 2023-06-24 20:15:35 发布

码一码码码

最新推荐文章于 2023-06-24 20:15:35 发布

阅读量1k

点赞数 3

文章标签： transformer bert 自然语言处理

本文链接：https://blog.csdn.net/weixin_39586997/article/details/119384143

版权

本文详细探讨了Attention机制，包括其核心逻辑、优缺点和多种类型。接着，深入介绍了Transformer模型的结构、Encoder-Decoder Attention以及位置编码。随后，概述了Bert模型的预训练和微调过程。最后，提到了Fine-Tuning和Prompt在NLP领域的应用。

摘要由CSDN通过智能技术生成

一、Attention机制

1、核心逻辑：从关注全部到关注重点；

2.计算attention公式：

3.优点：

（1）参数少：相比CNN、RNN，模型复杂度小；

（2）速度快：解决了RNN不能并行计算的问题；

（3）效果好：解决了长距离信息会被弱化的问题；

4.实现步骤：

第一步： query 和 key 进行相似度计算，得到权值

第二步：将权值进行归一化，得到直接可用的权重

第三步：将权重和 value 进行加权求和

5.类型：

（1）soft attention：这是比较常见的Attention方式，对所有key求权重概率，每个key都有一个对应的权重，是一种全局的计算方式（也可以叫Global Attention）。这种方式比较理性，参考了所有key的内容，再进行加权。但是计算量可能会比较大一些。

（2）hard attention：直接精准定位到某个key，其余key就都不管了，相当于这个key的概率是1，其余key的概率全部是0。因此这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响。另一方面，因为不可导，一般需要用强化学习的方法进行训练。（或者使用gumbel softmax之类的）

（3）local attention：是以上两种方式的一个折中，对一个窗口区域进行计算。先用Hard方式定位到某个地方，以这个点为中心可以得到一个窗口区域，在这个小区域内用Soft方式来算Attention。

（4）General Attention，这种方式利用到了外部信息，常用于需要构建两段文本关系的任务，query一般包含了额外信息，根据外部query对原文进行对齐。

（5）Local Attention，这种方式只使用内部信息，key和value以及query只和输入原文有关，在self attention中，key=value=query。既然没有外部信息，那么在原文中的每个词可以跟该句子中的所有词进行Attention计算，相当于寻找原文内部的关系。

（6）单层Attention，这是比较普遍的做法，用一个query对一段原文进行一次attention。

（7）多层Attention，一般用于文本具有层次关系的模型，假设我们把一个document划分成多个句子，在第一层，我们分别对每个句子使用attention计算出一个句向量（也就是单层attention）；在第二层，我们对所有句向量再做attention计算出一个文档向量（也是一个单层attention），最后再用这个文档向量去做任务

（8）多头Attention，这是Attention is All You Need中提到的multi-head attention，用到了多个query对一段原文进行了多次attention，每个query都关注到原文的不同部分，相当于重复做多次单层attention

6.相似度计算方式：

1）点乘：最简单的方法，

2）矩阵相乘：

最低0.47元/天解锁文章

码一码码码

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Attention——Transformer——Bert——FineTuning——Prompt

一、Attention机制1、计算attention公式以及为什么要➗dk二、Transformer模型1、transformer encoder/decoder2、transformer encoder 与 GRU区别三、Bert模型四、Fine-Tuning微调五、Prompt
复制链接

扫一扫