soft attention、hard attention、 local attention结构

最新推荐文章于 2024-04-28 19:44:21 发布

自学AI的鲨鱼儿

最新推荐文章于 2024-04-28 19:44:21 发布

阅读量1.5w

点赞数 16

文章标签： NLP

本文链接：https://blog.csdn.net/qq_16555103/article/details/99760588

版权

AI_NLP 专栏收录该内容

20 篇文章 9 订阅

订阅专栏

1、attention 理解方式

理解： key 与 query 生成权重 α ，α 与value 生成 attention value

注意：在tensorflow中 seq2seq + attention 的 attention 的 key 与 value 是相同的，都是解码器的输出，
但是在其他框架中就不一定了，例如 transformer / bert

2、soft attention、global attention

global attention 与 soft attention 结构完全一样

2、hard attention

1、Soft Attention中是对于每个Encoder的Hidden State会match一个概 率值，而在Hard Attention会直接找一个特定的
    单词概率为1，而 其它对应概率为0.

3、local attention

4、self attention（transformer）

https://blog.csdn.net/qq_16555103/article/details/100920480 ------------ transformer、bert网络

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

自学AI的鲨鱼儿

关注关注

16
点赞
踩
40

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

NLP-2015：Attention机制用于CV领域【Attention机制：Hard Attention、Soft Attention】

u013250861的博客

02-06

428

《原始论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》参考资料：论文笔记 - Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

深度学习中的Attention机制

xfysq_的博客

03-27

1530

深度学习中的Attention机制

3 条评论您还未登录，请先登录后发表或查看评论

注意力机制的分类 | Soft Attention和Hard Attention

Ftwhale的博客

08-10

9383

在前面两节的内容中我们已经介绍了注意力机制的实现原理，在这节内容中我们讲一讲有关于注意力机制的几个变种： Soft Attention和Hard Attention 我们常用的Attention即为Soft Attention，每个权重取值范围为[0,1] 对于Hard Attention来说，每个key的注意力只会取0或者1，也就是说我们只会令某几个特定的key有注意力，且权重均为1。 Global Attention和Local Attention 一般不特殊说明的话，我们采用的Attention都是G

soft Attention 和Hard Attention

热门推荐

ccbrid的博客

03-28

2万+

以下内容摘自：https://zhuanlan.zhihu.com/p/31547842 1.attention的提出：把输入X编码成一个固定的长度，对于句子中每个词都赋予相同的权重，这样是不合理的，没有区分度往往使模型性能下降。因此提出Attention Mechanism（注意力机制），用于对输入X的不同部分赋予不同的权重，进而实现软区分的目的。 Kelvin Xu等人与2015年发...

soft-attention--学习笔记

oneself的博客

10-11

1519

soft-attention--学习笔记

零基础学nlp【5】 hard attention 和 soft attention（Show, attend and tell: Neural image caption generation ）

rory0114的博客

03-12

1320

零基础学nlp【5】 hard attention 和 soft attention 论文：Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning...

Attention机制论文阅读——Soft和Hard Attention

nbawj的博客

06-03

1万+

论文：Show, Attend and Tell: Neural Image CaptionGeneration with Visual Attention提出了attention-based model的变种：Stochastic "Hard" Attention和Deterministic "Soft" Attention相同的框架：1、编码器：卷积神经网络提取特征：2、解码器：LSTM网络S...

From Attention to Transformer.pptx

04-11

最初，注意力机制分为软注意力（Soft attention）和硬注意力（Hard attention）两种类型。 1. 软注意力（Soft attention）： - 软注意力机制允许模型对输入序列的各个部分分配权重，通过加权平均来生成一个上下文...

对比Attention的几种结构

yujianmin1990的专栏

08-18

5278

前言之前看到几篇关于attention思想的应用文章，现在对比下其中的Attention具体结构上的区别。 NMT by Jointly Learning to Align and Translate Effective Approaches to Attention-based NMT Show, Attention and Tell: Neural Image Caption Gen...

零基础学nlp【4】 global attention 和 local attention（Effective approaches to attention-based neural mt）

rory0114的博客

03-11

1444

零基础学nlp【4】 global attention 和 local attention 论文：Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015. 主要内容基于...

ReID：Harmonious Attention Network for Peson Re-Identification 解读

linwh8的博客

04-03

6658

最近阅读了CVPR2018的这篇论文 Harmonious Attention Network for Peson Re-Identification，论文还是比较容易理解的，下面就简单的解读一下，纯属个人观点，有不同意见的欢迎评论与我探讨~ Problem Existing person re-identification(re-id) methods either assume ...

soft / hard attention 机制理解——机器学习中的soft 和 hard

zhr1030635594的博客

05-18

2775

Soft attention是一种全局的attention，其中权重被softly地放在源图像所有区域 Hard attention一次关注图像的一个区域，采用0-1编码，时间花费较少，但是不可微分，所以需要更复杂的技术来进行训练下图是从果壳网（quora）摘取的一篇回答即在机器学习中soft 常常表示可微分，比如sigmoid和softmax机制而hard常常表示不可微分 soft hard attention机制是在图像生成标题任务中被提出的，其原始任务如下：上面是s..

local attention

ronghwa_lu

03-14

898

Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. “Effective approaches to attention-based neural machine translation.” arXiv preprint arXiv:1508.04025 (2015). 转载1 转载2 Local attention 原来是上面这篇论文提出的。没看代码实现。原理简单：假设1：源序列和目标序列大致单调对齐 Monotonic alignmen

soft-attention (SENet、BAM、CBAM)

weixin_45615542的博客

08-23

2864

soft-Attention 是参数化的（Parameterization），因此可导，可以被嵌入到模型中去，直接训练。梯度可以经过Attention Mechanism 模块，反向传播到模型其他部分。与分类、回归训练原理完全一致。 Squeeze - and - Excitation Network (SENet) SENet旨在通过使网络能够动态调制各通道的权重（通道注意力），从而重新校准特征来提高网络的表达能力。采用全局平均汇集特征来计算通道方向的注意。 BAM（Bottleneck Att

soft attention and self attention

qq_32539187的博客

05-24

1617

注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制，因此，我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人...

Attention的两种机制——global attention/local attention

J~的博客

12-18

6488

目录 1Global Attention全局注意力机制权重计算函数 Local Attention References： 1Global Attention全局注意力机制权重计算函数眼尖的同学肯定发现这个attention机制比较核心的地方就是如何对Query和key计算注意力权重。下面简单总结几个常用的方法： 1、多层感知机方法主要...

Local Attention和动态深度卷积间的关系

bairw_Bella的博客

12-27

987

Local Vision Transformer 是分别在一个个小的局部窗口中进行注意力计算。作者将局部注意力重新定义为通道级的局部连接层（channel-wise locally-connected layer），并4个方面进行分析：两种网络的正则化方式，稀疏连接和权值共享，以及动态权值计算。

一文搞懂深度学习的注意力机制 | 软和硬到底如何抉择？