transformer的一种加速方法Informer---- 稀疏化quary Q的方法

最新推荐文章于 2024-08-18 08:00:00 发布

Hungryof

最新推荐文章于 2024-08-18 08:00:00 发布

阅读量1.1k

点赞数 6

分类专栏：深度学习论文阅读 Deep Learning 文章标签：人工智能

本文链接：https://blog.csdn.net/hungryof/article/details/111992624

版权

Informer论文提出了一种针对长序列时间序列预测的高效Transformer模型，通过引入稀疏查询Q来减少计算复杂度。文章解释了Transformer的注意力机制原理，指出在某些情况下，部分查询qi的贡献接近于均匀分布，从而导致无效计算。通过计算KL散度筛选出重要查询，保留具有高区分度的qi，将复杂度从O(LQLK)降低到O(LK⋅lnLQ)，实现了Transformer的加速。

摘要由CSDN通过智能技术生成

论文：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

transformer主要是增强网络的全局信息利用能力。因为普通的卷积网络都是local信息利用，其在全局信息利用上存在不可避免的短板。所以才会有类似non-local attn的存在。 transformer里面的核心就是attn，
一般来说， $\mathcal{A}(\mathbf{q}_i, \mathbf{K}, \mathbf{V})=Softmax\left(\frac{\mathbf{QK}^T}{\sqrt{d}}\right)\mathbf{V}$ ，其中 $\mathbf{Q}\in \mathbb{R}^{L_Q\times d}$ , $\mathbf{K}\in \mathbb{R}^{L_K\times d}$ , $\mathbf{V}\in \mathbb{R}^{L_V\times d}$ 。而 $\mathbf{q}_i$ 代表的是 $\mathbf{Q}$ 第 $i$ 列（即第 $i$ 个quary）。

举个不太恰当的例子： $q$ ， $K$ 和 $V$ 分别代表 quary, key和value。显然，key和value是配对的。一个key对应一个value。假设你是一个爱学习的孩子（希望确实是哈），然后你去图书馆借书看。那么你喜欢看工科的书，那你就是一个quary，你找的关键词就是 key（工科的书），然后找到的书就是这个key对应的value。不同人（quaries）会根据自己喜好，从而索引不同的关键字（key），最终找到对应的书（value）。

关键: 这里的匹配时，对于每个 $\mathbf{q}_i$ ，我们都要和所有的 $\mathbf{k}_i$ 分别计算相似度，所以复杂度是 $\mathbb{O}(L_QL_K)$ 。

上面的self-attn其实可以写成：

$\mathcal{A}(\mathbf{q}_i, \mathbf{K}, \mathbf{V})=\sum_{j}\frac{k(\mathbf{q}_i, \mathbf{k}_j) }{\sum_{l}k(\mathbf{q}_i, \mathbf{k}_l) }\mathbf{v}_j=\mathbb{E}_{p(\mathbf{k}_j|\mathbf{q}_i)}\left[\mathbf{v}_j\right]$