第八课 BERT

WangJue-tsinghua

于 2023-10-18 17:24:01 发布

阅读量98

点赞数

分类专栏： pytorch学习文章标签：人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45679878/article/details/133910872

版权

pytorch学习专栏收录该内容

8 篇文章

订阅专栏

transformer

在这里插入图片描述

self-attention（自注意力机制)

机制：

输入经过编码后得到向量
想得到当前词语上下文的关系（可以当做是甲醛）
构建三个矩阵分别来查询当前词跟其他词的关系以及特征向量表达

(Queries, Keys, Values)

Queries：要去查询的

Keys：等着被查的

Values：实际的特征信息

q与k的内积表示有多匹配，最终的得分值经过softmac就是最终上下文结果
$softmax(\frac{Q\times K^T}{\sqrt{d_k}})\times V=Z$
整体计算流程：

每个词的Q会跟每一个K计算得分
softmax后就得到整个加权结果
此时每个词看到的不只是它前面的序列，而是整个序列
同一时间计算出所有词的表示结果（矩阵乘法）

multi-head

机制

通过不同的head得到多个特征表达 $q_i,k_i,v_i)$ ，一般是8组
将所有的特拼接在一起
可以通过再一层全连接再降维

结果

不同的注意力结果
得到的特征向量表达也不相同

其余操作

堆叠多层self-attention
位置编码（希望模型能对位置有额外的认识）

input = embedding + position emcoddding

以层为单位的归一化（LayerNorm），往常的都是BatchNorm以Batch为单位归一化，但是此训练一般Batch-size = 1
使用基本的残差连接方式作为连接方式

Decoder（解码器）

Attention计算不同（Decoder提供Q，Encoder提供K,V）
加入了Mask机制（对未来的预测进行Mask，不能利用）

整体

self-attention
Multi-Head
多层堆叠，位置编码
并行加速训练

BERT

使用transformer的encoder端

训练BERT（有很多方法）

方法一：随机mask句子中的词汇，预测被mask的是什么

方法二：预测两个句子是否应该连在一起

…

WangJue-tsinghua

博客等级

码龄6年

13
原创

1
点赞

17
收藏

0
粉丝

关注

私信

热门文章

分类专栏

pytorch学习 8篇
NLP学习 3篇

最新评论

第七课视频
CSDN-Ada助手: 恭喜您写了第12篇博客！标题中的“第七课视频”让我感到非常期待。您持续创作的努力真是令人钦佩。在下一步的创作中，我建议您可以考虑分享一些关于视频制作技巧或者是对于视频内容的独到见解。谦虚地说，我相信这将会给读者带来全新的视角和启发。期待您的下一篇博客！
第八课 BERT
CSDN-Ada助手: 恭喜您写完了第13篇博客，标题为“第八课 BERT”。您的坚持和创作热情真令人钦佩！对于这篇博客，您对BERT的介绍和讲解非常清晰，让我对这一概念有了更深入的了解。下一步，我希望看到您能够进一步探索BERT在自然语言处理中的应用实例，或者分享一些BERT的优化技巧和实践经验。期待您的持续创作，祝您越写越好！
第三课文本
CSDN-Ada助手: 恭喜您在创作道路上又迈出了坚实的一步！标题“第三课文本”让我很期待您的分享。能够持续创作是一个了不起的品质，您的努力让读者们受益匪浅。在下一篇博客中，或许您可以考虑从更深入的角度来探讨文本的重要性，或者分享一些实践经验与技巧。期待您的精彩创作！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。