开个坑，自学self-attention机制的记录

最新推荐文章于 2024-04-29 11:04:54 发布

Tot_ziens_dag

最新推荐文章于 2024-04-29 11:04:54 发布

阅读量259

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/Tot_ziens_dag/article/details/106936160

版权

本文记录了作者暑假学习Self-Attention机制的过程，探讨了Self-Attention与Attention机制的差异，以及Self-Attention如何在无需RNN的情况下捕获上下文信息。推荐了一个详细的Transformer教程并分享了自己的代码实现。

摘要由CSDN通过智能技术生成

记录一下暑假学self-attention机制的经过

麻辣鸡，暑假里十门考试，不一定写的了了。

开了学终于有时间开坑了。

1、为啥需要self-attention机制，self-attention机制于attention机制的区别。

attention机制是在seq2seq模型中提出的，主要是为了解决在解码部分所有隐含层状态对最后的贡献一致的情况。

而self-attention的提出是数据科学家在寻找一种与RNN无关的，且能包含上下文信息的Attention结构。

简单来说self-attention机制就是把一个Max_length*Embedding Dim的句子矩阵X，转化为相同shape的矩阵Y，但是矩阵Y为考虑了句子上下文而生成的矩阵。所以其在低维映射空间中能够更好的表示该句子。

一个最好的教程：
https://jalammar.github.io/illustrated-transformer/

附上自己的代码：

class TextCnn_Att(nn.Module):
    def __init__(self,n_embed):
        super(TextCnn_Att,self)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tot_ziens_dag

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【CVPR 2021】Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation

梁瑛平的博客

07-22

902

【CVPR 2021】Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation论文地址：主要问题：主要思路：具体实现：基本符号：Self-Teacher Network：Self-Feature Distillation：实验结果：分类：分割：联系作者：我的公众号：论文地址： https://arxiv.org/abs/2103.08273 主要问题：作者认为训练教师模型太耗时间，因此从自我

TensorFlow实现自注意力机制（Self-attention

2401_83740189的博客

04-07

1046

深度学习中的大多数计算都是为了提高速度性能而矢量化的，而对于自注意力也没有什么不同。第一步是将其重塑为形状为 (H×W, C) 的2D矩阵，并使用 θ θ θ 与 φ φ φ 的矩阵相乘来计算注意力图。在SAGAN中使用的自注意力模块中，还有另一个1×1卷积，用于将通道数恢复到与输入通道数相同的数量，然后使用可学习的参数进行缩放操作。上图红，最左边一列的图是带有点标记的查询 (queries) 的图像。在每个卷积层之后，激活由形状 (H, W, C) 被重塑为形状为 (H*W, C) 的二维矩阵。

参与评论您还未登录，请先登录后发表或查看评论

self-attention机制

Abraham Ben

08-28

7416

传统的CNN得弱点在于一般都是读取局部信息，而没有考虑整个全局的信息。此时如果使用很大的kernel size一次覆盖掉所有的输入。但是弱点有: 在机器翻译中的输入长度不定。这种情况下的kernel参数量非常多，容易overfitting。 self-attention就是一种可以考虑全局信息的机制。相关论文为: attention is all you need self-attention可以和CNN和FC结合使用。 self-attention计算方法如下: 计算a1a^1a1与其他输入的相

自注意力机制(Self-Attention)

热门推荐

Michale_L的博客

08-27

9万+

自注意力机制

技术笔记:Self-Attention机制

仅用于分享论文心得和技术

03-28

2723

Self-Attention1.键值对注意力 Transformer中最核心的部分就是键值对注意力了，键值对注意力最核心的公式就是下面这个公式了，这个公式其实蕴含了很多点，这些点都要Get到。首先上面这个公式可能看起来挺难懂，但是我们可以看看下面这个公式，下面这个公式的意义是什么？先抛开Q,K,V矩阵不谈，self-Atte...

self attention（自注意力机制）

jesseyule的博客

09-28

5万+

self attention是注意力机制中的一种，也是transformer中的重要组成部分，本文先重新回归一下注意力机制，再做进一步介绍。正如之前说的，注意力机制的目的是根据我们的目标，去关注部分细节，而不是基于全局进行分析，所以核心就是如何基于目标确定我们要关注的部分，以及在找到这部分细节之后进一步进行分析。这里先以文本匹配作为例子进行介绍。假设我们要分析两个文本是不是重复的： Iama...

TensorFlow实现自注意力机制（Self-attention），最新Python笔试题分享

m0_60707708的博客

03-30

880

目、讲解视频，并且后续会持续更新**

TensorFlow实现自注意力机制（Self-attention），Spring都没弄明白凭什么拿高薪

imtokenmax众筹

03-23

667

自注意力机制(Self-attention)自注意力机制 (Self-attention) 随着自然语言处理 (Natural Language Processing, NLP) 模型（称为“Transformer”）的引入而变得流行。在诸如语言翻译之类的NLP应用程序中，模型通常需要逐字阅读句子以理解它们，然后再产生输出。

self-attention机制-简单笔记

BigLittleKing的博客

09-14

151

对于decoder来讲，我们注意到有两个与encoder不同的地方，一个是第一级的Masked Multi-head，另一个是第二级的Multi-Head Attention不仅接受来自前一级的输出，还要接收encoder的输出，下面分别解释一下是什么原理。第一级decoder的key, query, value均来自前一层decoder的输出，但加入了Mask操作，即我们只能attend到前面已经翻译过的输出的词语，因为翻译过程我们当前还并不知道下一个输出词语，这是我们之后才会推测到的。而第二

李宏毅《深度学习》- Self-attention 自注意力机制

0202zc 的博客

10-20

1万+

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量（序列），同时长度会改变，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量的大小都不一样：将单词表示为向量的方法：One-hot Encoding（独热编码）。向量的长度就是世界上所有词汇的数目，用不同位的1（其余位置为0）表示一个词汇，如下所示：但是它并不能区分出同类别的词汇，里面没有任何有意义的信息。另一个方法是Word Embedding：给单词一个向量，这个向量

浅谈Self-attention自注意力机制

qq_43398777的博客

08-04

998

先从Intuition说起如何让序列自己“注意”到更有价值的信息？我们可以通过self-attention计算序列内部的关联性来实现。对数字信号，语音信号，图形等输入，我们都可以用特定的编码形式生成对应的向量组，对每个向量通过乘以特定的矩阵可以生成其对应的q, k, v，假设q是该向量想要获取的特征，k是该向量自身特征，v则是该向量的价值。那么self-attention的第一步则是，利用该向量的q查询向量组中所有向量（包括它自身的k），查询过程即为点乘。标注点乘结果为w，则记w11=q1k1，w12=

深度探索：机器学习中的自注意力机制（Self-Attention）原理及应用

最新发布

qq_51320133的博客

04-29

2832

自注意力机制作为一种革命性的概念，已经深刻改变了机器学习，特别是自然语言处理和计算机视觉领域的研究和实践。它通过直接建模序列中所有位置之间的关系，解决了传统模型在处理长距离依赖和全局上下文理解方面的局限性，推动了诸如Transformer这样的模型架构的发展，极大地提升了模型的性能和效率。未来，自注意力机制的研究和发展趋势可能集中在以下几个方面：效率优化：持续探索减少自注意力计算成本的方法，如稀疏注意力机制、近似注意力计算等，使得自注意力模型能在资源受限的设备上高效运行。可解释性增强：提高自注意力

一文搞定自注意力机制（Self-Attention）

markconca的博客

10-25

5万+

1 Self-Attention的概念2 Self-Attention的原理3 Self-Attention的作用4 Self-Attention的问题。

全网最通俗易懂的 Self-Attention自注意力机制讲解

大脸猫的博客

10-04

7万+

前言因工作需要，不得不再次将Transformer从尘封的记忆中取出。半年前学Transformer的时候只觉得模型好复杂，步骤好复杂，论文读完，想了好几天，感觉还是没有完全搞明白，仅仅是记住了一些专有名词，除了用于吹牛逼其余一无是处，因为内部的机理完全不明白，所以这些名词啊、公式啊转眼就忘。 Self-attention是Transformer最核心的思想，这两天重新阅读了论文，有了一些新的感想，便急忙将其记下，与朋友们共勉。博主刚开始接触self-attention时，最不理解的地方就是Q

从头理解self-attention机制

qq_42368281的博客

01-18

2738

注意力机制中较为重要的是self-attention机制，直接做了个小白能看懂的总结，也便于自己复习。

Attention机制、self-attention机制原理及计算

qq_41961237的博客

12-08

1441

Attention、self-attention机制理解 Attention原理理解个人理解假定源文档source，其中的每一个词为value，并且给每一个词进行编号key。query暂时理解为需求，用来预测相关的query。导入如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，继续你的创作。 ...

Attention机制

weixin_44285715的博客

12-04

1209

Attention注意力模型的强大应用起初，我们用encoder，decoder来encode语句到语义上，再decode语义到下游任务中。比如：输入是中文，输出是英文，这就是翻译系统。输入是文章，输出时摘要，这就是摘要系统。输入是问题，输出是答案，这就是QA问答系统，对话机器人。输入是图片，输出是文字，这就是图片自动描述系统。输入是语音，输出是文字，这就是ASR系统...