《实验细节》获得上三角矩阵做MASK

365JHWZGo

于 2022-12-30 18:41:39 发布

阅读量257

点赞数

分类专栏： NLP 文章标签：矩阵 python numpy mask 上三角

本文链接：https://blog.csdn.net/qq_44833392/article/details/128499220

版权

NLP 专栏收录该内容

89 篇文章 51 订阅 ¥29.90 ¥99.00

订阅专栏

《实验细节》获得上三角矩阵做MASK

前言
效果示意图
完整代码

前言

在对话生成中往往需要使用遮罩mask，让模型无法作弊，即在做attention时无法抄袭后面的字。那么如何实现呢？
在这里插入图片描述
大体是这样的！那么如何用代码实现这样的效果呢？

效果示意图

在这里插入图片描述

完整代码

import torch
import numpy as np
def _get_attn_subsequent_mask(size):
    """
    Get an attention mask to avoid using the subsequent info.

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

365JHWZGo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《实验细节》获得上三角矩阵做MASK

在对话生成中往往需要使用遮罩mask，让模型无法作弊，即在做attention时无法抄袭后面的字。那么如何实现呢？大体是这样的！那么如何用代码实现这样的效果呢？
复制链接

扫一扫

专栏目录

订阅专栏

python seaborn heatmap可视化相关性矩阵实例

09-16

为了更清晰地展示矩阵，我们可以使用掩码（mask）来隐藏下三角部分，因为对角线以下的数据与对角线以上相同。以下是如何创建和应用掩码： ```python # 创建一个与相关性矩阵大小相同的掩码 mask = np.zeros_like...

Attention-mask 在transformer模型框架中的作用

li1784506的博客

11-19

2608

注意力机制的解释性博客比较多质量良莠不齐，推荐大家观看李宏毅老师关于注意力机制的讲解视频以及本人觉得对注意力机制讲解比较透彻的一篇博客[为更好解读注意力机制中attention-mask 的作用，现将注意力机制的原理进行总结。假设两个输入经过Wq、Wk、Wv矩阵（可训练）线性变换后获得q1=(1,2),q2=(0,1)，k1=(1,0),k2=(0,1)，v1=(1,0),v2=(0,1)向量。注意力机制核心就是向量q与向量k点乘后获得相似性分数（一个标量)。同理 q2也与所有的k向量点乘获得。

参与评论您还未登录，请先登录后发表或查看评论

attention_mask矩阵应用

tyler的博客

03-18

2997

import torch attention_mask = [[1,0,0], [1,1,0], [1,1,1]] attention_mask = torch.tensor(attention_mask) slot_logits = [[1,2,3], [4,5,6], ...

Pytorch mask：上三角和下三角

得克特

07-13

7928

上三角 triu Pytorch上三角和下三角的调用与numpy是相同的。 np.triu(np.ones((5,5)),k=0) # k控制对角线开始的位置 Out[25]: array([[1., 1., 1., 1., 1.], [0., 1., 1., 1., 1.], [0., 0., 1., 1., 1.], [0., 0., 0., 1., 1.], [0., 0., 0., 0., 1.]]) 构建一个上三角mask torch.t

TensorFlow版BERT源码详解之self-attention

herosunly的博客

09-05

1万+

self-attetion是BERT中的最为核心的内容之一，虽然TensorFlow版的BERT中的self-attention的原理和论文中是一致的，但是实现代码却有所出入。为了帮助新手快速理解这部分内容，所以通过该篇博客逐行解释具体代码。文章目录1. 函数参数2. 维度变换过程2.1 单个注意力头2.2 多个注意力头3. 代码解析 1. 函数参数 def attention_layer(from_tensor, to_tensor,

多图详解attention和mask。从循环神经网络、transformer到GPT2

qq_56591814的博客

08-17

9177

transformaer原理文章目录transformaer原理1.1 NLP任务分类：2. 图解Attention2.1 seq2seq2.2 循环神经网络的不足：2.3 attention的引出（建议加精，一定要看）2.4 从机器翻译推广到attention的一般模式（有空补）2.5 attention模型的改进形式2.6 self-attention2.6.2计算 Self Attention ：2.6.3使用矩阵计算 Self-Attention3.多头注意力机制（multi-head atten

深度学习-transformer解读

最新发布

02-04

这通常通过构建一个上三角矩阵并将其应用于注意力得分来实现，以确保模型仅能关注当前及之前的时间步。总而言之，Masked Multi-Head Attention机制不仅提高了模型的实用性，还增强了其在序列生成任务中的表现。...

赛道3-科讯嘉联灵珠团队1

08-03

这些模型都采用了不同的注意力机制，如Bert的绝对位置编码，Roformer的旋转位置编码（Rotary Position Embedding），以及Deberta的相对位置编码，后者通过三角函数式来表达位置信息。Nezha模型引入了相对位置编码，...

OpenGL高级编程与可视化系统开发（系统开发篇）源码.rar

04-07

OpenGL是计算机图形学中的一种广泛应用的编程接口，用于在各种操作系统和硬件上生成二维和三维图像。本资源“OpenGL高级编程与可视化系统开发（系统开发篇）源码.rar”提供了深入学习OpenGL高级特性和实现复杂可视化...

OpenGL 俄罗斯方块(Tetris)

06-19

3. **模型、视图和投影变换**：将方块在三维空间中的位置通过模型矩阵、视图矩阵和投影矩阵转换为屏幕上的二维坐标。理解这些变换矩阵的作用及其计算方法。 4. **纹理映射**：可能的话，使用纹理映射给方块添加色彩...

transformer里的attention mask产生的单向双向效果和xlnet里的效果

Talk Is Cheap

07-03

5216

1，2，3，4是一句话的四个词，并打乱了顺序，以xlnet为例，图中，上图和下图的区别是下图扣去邪线，上图表示，1可以看到1，2可以看到2，3可以看到3，4可以看到4，下图表示，1不能看到1，2不能看到2，3不能看到3，4不能看到4，把这个mask矩阵左下角全部置0，则是单向transformer，把整个mask矩阵全部置1，则是双向transformer，回到上图，矩阵第一行...

生成模型的中Attention Mask说明

weixin_42223207的博客

09-25

5202

生成模型中的attention mask 学习理解

Unilm生成式之Attention Mask解读

liliang199的专栏

03-13

1943

生成式对话说明

【Python】seaborn.heatmap生成上不同形状的三角形遮罩

小白兔的窝

10-10

2169

只保留左下方数据（上三角遮罩）： mask = np.zeros_like(cor) for i in range(len(mask)): for j in range(i+1, len(mask[0])): mask[i][j] = True 只保留右上方数据（下三角遮罩，很丑）： mask = np.zeros_like(cor) for i in rang...

超细粒度分析 XLNet 中神奇的 Attention Mask

海晨威

11-29

1204

BERT后时代，XLNet 在20个任务上超越BERT，引起不小的关注。最重要的改进是 XLNet 实现了不在输入中加[Mask] 标志，同样可以利用上下文信息，解决了BERT预训练和微调不一致的问题。 1、XLNet如何实现在不加 [Mask] 情况下利用上下文信息呢？ XLNet 通过 Permutation Language Modeling (PLM) 重排输入文本，使得当前词的下文也有可能出现在当前词的「上文」中，而实际的操作不是通过改变文本输入顺序来实现，而是依靠关键的 Attention M

Transformer的矩阵维度分析和Mask详解

我最怜君中宵舞的博客

09-29

3万+

文章目录Multi-Head attention中矩阵维度的变化Transfromer的训练过程Transformer的句子生成过程Maskmask矩阵对K进行mask对Q进行maskMasked Multi-Head Attention中的Mask mask时Transformer中很重要的一个概念，mask操作的目的有两个：让padding(不够长补0)的部分不参与attention操作 ...

对图像的三角形区域进行仿射变换

hm成长之路

11-24

1105

代码不废话，直接上代码 //=============================================================== //FileName: // warpTriangle.cpp //Date: // 2019/11/24 //Author: // khoing(https://blog.csdn...

Transformer 中self-attention以及mask操作的原理以及代码解析