文献阅读笔记系列
一、题目:Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks
这是一篇利用transformer的自注意力机制来处理无序的集合数据的一种编码解码结构。
二、提出问题
对于输入为集合数据的问题,深度模型需要满足两个条件:1):对于输入数据中的任何排列方式,模型都可以保持一致的输出。2):模型可以处理任意长度的集合数据(例如PointNet中的MLP在处理点云时所有点都共享权重,理论上可以处理任意数量的点,最后再通过均衡函数进行特征聚合)。
本文提出的模型也是按这两个条件所设计的。
三、创新点
1、基于注意力机制,本文提出了一种全新的用于处理集合数据的解码器和编码器结构。
2、利用诱导点方法将自注意力中的计算复杂度由平方转化为线性(对于输入集合中的实例数量来说)。
四、主要理论
本文主要设计了三种基于注意力的集合操作MAB,SAB, ISAB,如下图所示:
1、首先是注意力和多头注意力
单头注意力:
A t t ( Q , K , V ; w ) = w ( Q K T ) V w h e r e Q ∈ R n × d q , K ∈ R n v × d p , V ∈ R n v × d v , Q K T ∈ R n × n v Att\left( Q,K,V;w \right) =w\left( QK^T \right) V \\where\ Q\in \mathbb{R}^{n\times d_q},\ K\in \mathbb{R}^{n_v\times d_p},\ V\in \mathbb{R}^{n_v\times d_v},\ QK^T\in \mathbb{R}^{n\times n_v} Att(Q,K,V;w)=w(QKT)Vwhere Q∈Rn×dq, K∈Rnv×dp, V∈Rnv×d