Transformer and set Trasformer

最新推荐文章于 2023-05-04 16:48:38 发布

叶落叶子

最新推荐文章于 2023-05-04 16:48:38 发布

阅读量344

点赞数

分类专栏： bert 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40485502/article/details/114674489

版权

bert 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.Transformer

在这里插入图片描述

multihead attention block: $MAB(X,Y)=LayerNorm(H+rFF(H))\\ H=LayerNorm(X+multihead(X,Y,Y;\omega)$
* Attention: $Att(Q,K,Vl;\omega)=\omega(QK^T)V$
* multi: $multihead(Q,K,V;\lambda,\omega)=concat(O_1,...,O_h)W^O$
self-attention
- self-attention: $Q=W_qx;K=W_kx;V=W_vx$
Mask:解码第i个单词，只知道第i-1及之前的信息，然后与self-attention 一致
- 被mask的为1：因为att+softmax之后会变成0
encoder-decorder Attention
- K，V使用encoder，Q用上一层的输出
除根号：

1.1 PE

在这里插入图片描述

1.2优点

并行
无PE则是词袋模型
重点self-attention

set transformer

1.1 19年ICML：:Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks

problem:set-input
需求：
- 排列不变性
- 可输入任意尺寸集合
与transformer区别：
- 不输入PE
- decoder第一个self-attention改为：pooling
公式
- $S A B (X) = M A B (X, X)$ –说是set attention实际是self-attention?$
  - 时间复杂度O(n^2)$
- 改进，降低空间复杂度 $ISAB(X)=MAB(X,H)\in R^{n\times d}\\ where H=MAB(I,X)\in R^{m\times d},I是可训练参数$
  - 时间复杂度 $O (m n)$
  - 降维了大概
- Pooling，可训练的: $PMA_k(Z)=MAB(S,rFF(Z))，S\in R^{k\times d},Z是encoder的输出$

1.2 pool:另一种pool的方式

code
ICLR2020: FSPOOL: LEARNING SET REPRESENTATIONS WITH FEATUREWISE SORT POOLING
loss:排序后可用 MSE

1.2.1集合输出的损失函数

都具有排列不变性
$O(n^3)$ 的匈牙利算法：找最优匹配
- Joint Entity and Relation Extraction with Set Prediction Networks用的也是这个？
O(n^2):找最像的

1.2.2排序使得模型具备排列不变性：feature sort pooling

先对每一维度的特征排序，将排序后的特征加权求和。
排序后就无需再计算loss前进行分配，而分配的复杂度高
why 按行排序？？？为什么不对object排序？？
因为这样可以忽略object的个数问题。

1.2.2.1 fixed-size sets

先按行排序（对特征排序），这样每一列不能单独代表一个object，但是特征是解耦的，所以排序不会丢失信息
- 排序不可微分，但可以梯度反传（像最大池化一样）

在这里插入图片描述

1.2.2.2 VARIABLE-SIZE SETS

在这里插入图片描述

W:是个固定长度的向量

1.2.3 decoder

自编码器，使用逆排序对齐x
loss

1.2 对抗学习的set transformer：loss

ICML2020 Spotlight：Generative Adversarial Set Transformers
- 用对抗学习充当loss

参考

【1】transformer
【2】set transformer
【3】fs pool

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Transformer and set Trasformer

1.Transformerself-attentionmultihead attention block:MAB(X,Y)=LayerNorm(H+rFF(H))
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。