自然语言处理-BERT处理框架-transformer

最新推荐文章于 2024-06-29 05:06:01 发布

乔大将军

最新推荐文章于 2024-06-29 05:06:01 发布

阅读量697

点赞数 18

分类专栏：深度学习 NLP 文章标签：自然语言处理 bert transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JamesSwifte/article/details/139953889

版权

深度学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

目录

2.2 传统RNN网络的问题

2.3 整体架构

2.5 Self-Attention如何计算

3.multi-headed机制

4. BERT训练方法

1.介绍

BERT：当前主流的解决框架，一站式搞定NLP任务。（解决一个NLP任务时的考虑方法之一）

BERT：google开源的框架

BERT：自然语言的通用解决框架

必备知识：Word2vec,RNN(了解词向量模型，RNN模型如何建模)

重点：Transformer网络架构

训练方法： BERT训练方法

google开源提供预训练模型，直接使用

2.Transformer

2.1 引言

BERT时基于Transformer框架的，所以了解Tansformer就基本了解BERT。

提出问题：transformer要做一件什么事呢？？

答：就像将自然语言翻译成计算机语言，让其学习。

其基本组成依旧是机器翻译模型中常见的Seq2Seq网络。输入输出都很直观，其核心就是中间的网络架构了。

2.2 传统RNN网络的问题

可以看出这种依次计算的方式，计算效率不高，且后面的计算需要依赖前面的计算结果。

预训练好的词向量就不会改变了，这种对于复杂语境应用不好。所以能不能让其并行计算，提高运算效率，且词向量的构成考虑到上下文的语境呢？？？

答案：self-Attention机制来考虑进行并行计算，输出结果的是同时你算出来的，现在已经基本取代RNN了。

2.3 整体架构

接下来我们将围绕这几个问题来展开对Tansformer的介绍：
1. 输入如何编码？
2.输出结果是什么？

3.Attemtion的目的？

4.怎样组合在一起？

2.4 Attention

对于输入的数据，你的关注点是什么？（不同的数据，关注点不同，比如：一张带背景的人像，关注点是人像而不是背景）

如何才能让计算机关注到这些有价值的信息？

Self-Attention是计算机自己判断。

每个词不能只考虑到自己，在训练的过程中，所有词构成句子，但是每个词分配的权重不同。在编码时，不能只考虑自己，要把上下文都融入，编码成向量。

例如：

it代表的东西不同，怎么让计算机识别出来呢？每个词都要考虑上下文，结合每个词对它的影响来进行编码。

2.5 Self-Attention如何计算

其实，说到底，Self-Attention就是如何编码，提取特征。

1. 通过Embedding随机或者其他什么方式去初始化词向量表， $W^Q,W^K,W^v$ 权重矩阵

2. 训练这三个矩阵

得到 $X*W^Q$ , $Q1,Q2$ 同理得到 $K1,K2;V1,V2$

当两个向量求内积，若是两个向量垂直表示其线性无关，其值为0，若是两个向量线性相关其值越大表示两个向量相关性越大。那么 $q_i*k_j(i,j\in n)$ 表示上下文每个词相关性，值越大相关性越大。

为了不让分值随着向量维度增大而增加，让计算难度增大，最终除以 $\sqrt{d_k}$

每一个词的Attention计算

softmax后就得到整个加权结果

经过上述一系列分析，Self-Attention解决了并行计算和词向量的构建编码考虑到了上下文语境的问题。

3.multi-headed机制

4. BERT训练方法

transformer中Encoder是重要的，就是编码方式。再将其进行下游任务微调，使其变成分类，预测等类型的任务。是自然语言处理的万金油模板。

关注

18
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理-BERT处理框架-transformer

BERT：当前主流的解决框架，一站式搞定NLP任务。（解决一个NLP任务时的考虑方法之一）BERT：google开源的框架BERT：自然语言的通用解决框架必备知识：Word2vec,RNN(了解词向量模型，RNN模型如何建模)重点：Transformer网络架构训练方法： BERT训练方法google开源提供预训练模型，直接使用。
复制链接

扫一扫

专栏目录

乔大将军 CSDN认证博客专家 CSDN认证企业博客

码龄4年

西南石油大学

30: 原创

109万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

913: 积分

575: 粉丝

595: 获赞

37: 评论

540: 收藏

私信

关注

热门文章

分类专栏

机器学习 24篇
NLP 2篇
深度学习 4篇
论文写作 1篇

最新评论

GAN实例基于神经网络
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是让人受益匪浅，知识的分享太有价值了，期待你继续灌输智慧！博主的文字清晰明了，让我在这个领域更加有信心，真的谢谢你的辛勤付出。
数据增强，迁移学习，Resnet分类实战
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数据增强，迁移学习，Resnet分类实战
Kwan的解忧杂货铺@新空间代码工作室: 博主的博客是我的学习良师，每篇文章都充满了启发，让我得到了更多的智慧，每一次阅读都是一次知识的盛宴，让我增长了不少见识，你的博文总是给予我新的思考和启发，真的很感谢你一直以来的辛勤付出。期待你的未来更新。
卷积神经网络
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
卷积神经网络
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618645012。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。