pytorch实现attention_Self-Attention手动推导及实现

本文探讨了Transformer架构中的Self-Attention机制,解释了其数学原理,并通过手动计算和PyTorch代码实现来阐述如何从输入向量生成输出。通过自注意力,输入单词可以相互交互并确定注意力焦点,最终形成输出结果。
摘要由CSDN通过智能技术生成

一、前言

问:transformer模型的众多派生BERT,RoBERTa,ALBERT,SpanBERT,DistilBERT,SesameBERT,SemBERT,SciBERT,BioBERT,MobileBERT,TinyBERT和CamemBERT有什么共同点?

答:Self-attention//Transformer架构

使用Transformer架构对NLP任务建模,避免使用递归神经网络,完全依赖Self-Attention机制绘制输入和输出之间的全局依赖关系。

本文要:

  1. 探究Self-Attention机制背后的数学原理
  2. 引导完成Self-Attention模块中涉及的数学计算
  3. 从头带领编写Self-Attention模块代码(pytorch)

二、自注意力机制(Self-Attention)

一个self-attention模块输入为 n,输出也为 n.那么在这个模块内部发生了什么?用门外汉的术语来说,self-attention机制允许输入彼此之间进行交互(“self”)并找出它们应该更多关注的区域(“Attention”)。输出是这些交互作用和注意力得分的总和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值