[李宏毅] self attention 个人笔记

本文深入探讨了自注意力(self-attention)机制,包括其输入输出形式、应用场景及与CNN和RNN的对比。自注意力允许模型处理变长序列,尤其适用于NLP任务如BERT。同时,介绍了Transformer模型,它是自注意力的主要应用,对于序列到序列任务表现出优越性能。此外,还讨论了位置编码(PE)的重要性以及在图数据上的应用。
摘要由CSDN通过智能技术生成

https://www.bilibili.com/video/BV1JA411c7VT?p=11&spm_id_from=333.880.my_history.page.click&vd_source=14d17a501a1dad78c613f1ba7f8f947c

输入输出

传统神经网络的输入是一个向量。

self attention

  • 输入:一组向量,且长度可以不固定。比如
    • NLP:一个句子由一些词组成,每个词是一个向量,长度固定;但一个句子由多少词是不确定的。
    • 一段声音信号,每个窗口用一个向量表示
    • 一个graph:each node as a vector
  • 输出:三种情况
    • 每个vector都有一个输出(sequence labeling)
      • NLP:词性标注 POS taggin
      • 声音信号:每一个frame的元音?
      • graph:每个人会不会买这个商品
    • 整个sequence有一个输出
      • NLP: sentiment analysis: 这段话是消极还是积极
      • 声音信号:这是谁说的
      • graph:这个分子是否亲水
    • 不知道多少个输出label,机器自己决定 (seq2seq)
      • NLP : 语言翻译
      • 声音信号:语音识别

过程:

scalar角度:如何从a求b (single head, w.o. PE)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

矩阵乘法角度:如何从a求b (single head, w.o. PE)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

multi head

就是使用多组qkv,得到多组b,这些b拼接起来乘W得到最终的b.
在这里插入图片描述

PE

实际上还需要把position encoding和a相加再操作。
在这里插入图片描述

应用

主要是NLP,如bert。

如果是speech这种数据,长度太长,可以截断:
在这里插入图片描述
如果把image看做一排向量,也可以用transformer:
在这里插入图片描述

self attention V.S. CNN

CNN 类似于,只对领域求α的self attentin。
在这里插入图片描述
可以看这篇论文
在这里插入图片描述
相当于self attention加上一些限制,就是CNN。所以在样本少的时候cnn更好,样本多时相反。
在这里插入图片描述

self attention V.S. RNN

也有相似之处。
但self attention可以并行计算,而且离得很远的东西也可以很好的用到(RNN容易遗忘)。因此现在基本self attention可以代替RNN。
在这里插入图片描述

for graph

只需算有边的点的alpha,没边的直接置0
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
李宏毅的2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值