小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)

本文详细解析Transformer模型中的自注意力机制、残差连接和Layer Normalization,阐述它们如何增强特征表征和防止梯度消失。此外,还讨论了FFN层的作用以及在输出阶段如何使用top_k策略提高模型表现力。
摘要由CSDN通过智能技术生成

终结篇了

      书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)

      本章把Trasfomer剩的一点网络讲完

      上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)

      我下面再换几张图,换个角度来看,来自于复旦的Qiu Xipeng教授的slide

      首先自注意机制它也不是Transformer才有的,实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络

      如下图所示,我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系,我们可以让"The"这个向量去分别跟其他每个单词的向量做内积,然后走softmax做归一化之后,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值