开个坑,自学self-attention机制的记录

本文记录了作者暑假学习Self-Attention机制的过程,探讨了Self-Attention与Attention机制的差异,以及Self-Attention如何在无需RNN的情况下捕获上下文信息。推荐了一个详细的Transformer教程并分享了自己的代码实现。
摘要由CSDN通过智能技术生成

记录一下暑假学self-attention机制的经过

麻辣鸡,暑假里十门考试,不一定写的了了。

开了学终于有时间开坑了。

1、为啥需要self-attention机制,self-attention机制于attention机制的区别。

attention机制是在seq2seq模型中提出的,主要是为了解决在解码部分所有隐含层状态对最后的贡献一致的情况。

而self-attention的提出是数据科学家在寻找一种与RNN无关的,且能包含上下文信息的Attention结构。

简单来说self-attention机制就是把一个Max_length*Embedding Dim的句子矩阵X,转化为相同shape的矩阵Y,但是矩阵Y为考虑了句子上下文而生成的矩阵。所以其在低维映射空间中能够更好的表示该句子。

一个最好的教程:
https://jalammar.github.io/illustrated-transformer/

附上自己的代码:

class TextCnn_Att(nn.Module):
    def __init__(self,n_embed):
        super(TextCnn_Att,self)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值