transformer论文介绍

wcc8848

于 2022-04-26 17:16:52 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习与nlp 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wcc8848/article/details/124416764

版权

深度学习与nlp 专栏收录该内容

10 篇文章

订阅专栏

title :Attention Is All you need

1 abstract ：说明了transformer不同于CNN 和RNN,transfomer只使用了注意力机制，就完成了seq-seq任务，并且取得不错的效果。

2.结论是相比于RNN等传统的循环神经网络网络模型，可以更好的实现并行，并且在翻译质量上更好

主要的模型结构是

文中所有图片均来自根据paperhttps://arxiv.org/abs/1706.03762

根据论文中的结构，可分为两个部分左边为encoder，右边为decoder,部分，这里解释一下为什么会有两个output，因为本任务为seq-seq的翻译任务，在训练过程中会有两种语言，但是由于它有属于生成式任务，在预测下文的时候，不能够使其知道该时刻之后的信息，所以采用了mask策略，使其只能根据当前时刻之前的信息进行预测。

Encoder部分：左边的方框表示一个block, block当中分为上下两层结构，下面这层为多头注意力机制，

多头注意力机制

self-attention：self-attention通过QKV，三个矩阵来进行计算，通过Q与K的点乘，经过softmax之后与V相乘得到想要的向量表示。

这里解释一下根号dk，如果维度的长度过大的时候，会导致特征之间的差异会变大，使其在softmax函数的结果更靠近1，导致差异过大

多头注意力机制借助了分组卷积的思想，将注意力机制进行分组最后进行组合。

为什么要这吗做呢？

因为如果只使用单头的self-attention会导致模型没有什么参数可以学，通过多头注意力

模型就可以学到Wq,Wk,Wv等模型参数。

mask的作用

在decoder的生成任务中，在一般的注意力机制的情况下，attention机制是可以看到全文的，但是在decoderd 生成任务中，为了保证ht时刻不到下一个时刻的信息，采用mask将其遮蔽，使其只能看到当前时刻之前的信息。

博客等级

码龄7年

41
原创

27
点赞

59
收藏

4
粉丝

关注

私信

热门文章

分类专栏

最新评论

python实现堆排序
ROCOMOON: 空格有问题
python实现堆排序
Wzj0616: 我在这里报错了 if li[j + i] > li[j]: IndexError: list index out of range
tfidf代码实现
芝麻节节高.: 请问，可以发一下stopwords.txt吗？
评价指标reacll@10,mrr@10,ndcg@10,hit@10的含义
kurok_: 好的好的，我现在确实面临这个问题，虽然训练loss已经很低了，但是hit1精度还是很低，最近打算尝试尝试列表出来让用户自己再做次选择了，多谢博主解答!
评价指标reacll@10,mrr@10,ndcg@10,hit@10的含义
wcc8848: 链接预测是用来预测三元组（h，r，t）中缺失实体h，t或r的任务，对于每一个缺失的实体，模型将被要求用所有的知识图谱中的实体作为候选项进行计算，并进行排名，而不是单纯给出一个最优的预测结果。这是这个任务的定义，因为hit1很难正确的预测到，通常是正确的结果在候选项中。如果你个人使用的话，可以用hit1,效果应该会很差

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。