Transformer 模型的理解与使用一

渔老师

已于 2022-03-31 22:40:56 修改

阅读量1.5k

点赞数

分类专栏： NLP 文章标签： nlp

于 2022-03-31 22:40:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36723038/article/details/123885546

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Transformer是谷歌团队在2017年提出的一个模型，由论文《Attention is All You Need》提出；

Transformer基于 self-attention 自注意力机制的一种网络结构，其网络结构沿用了seq2seq的主体结构，由 Encoder-Decoder流程组成；

Transformer模型是后续 Bert模型的核心；

Encoder也就是编码器，可以认为就是一个特征提取器，就是将原始的词转换为在语义空间里可以线性可分的特征；

Decoder也就是解码器，可以是一个线性分类器，或者是将编码器的表示映射为标号；

+、自然语义处理的4个阶段

Step1 RNN

Step2 Seq2Seq

Encoder 编码器 - 提取原始句子得意义

Decoder 解码器 - 将意义转换为其他语言表示

依靠句子意义这个中介，来解决翻译问题

Step3 Attention 注意力机制

Step4 SELF-Attention 自注意力机制 ------ Transformer

1、提取每个单词的意义

2、依据生成顺序选取所需要得信息

从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词；

自注意力层的输出会传递到前馈（feed-forward）神经网络中；

K/V矩阵的计算不是来自于某一个单词的输出，而是所有单词的输出汇总计算K/V矩阵；

+、使用场景

1、机器翻译

最早的使用场景

2、文本生成

3、聊天机器人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer 模型的理解与使用一

Transformer是谷歌团队在2017年提出的一个模型，由论文《Attention is All You Need》提出；Transformer基于 self-attention 自注意力机制的一种网络结构，其网络结构沿用了seq2seq的主体结构，由 Encoder-Decoder流程组成；Transformer模型是后续 Bert模型的核心；Encoder也就是编码器，可以认为就是一个特征提取器，就是将原始的词转换为在语义空间里可以线性可分的特征；Decoder也就是解码器，可
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。