transformer的一种加速方法Informer---- 稀疏化quary Q的方法

最新推荐文章于 2023-11-30 09:40:21 发布

VIP文章 Hungryof

最新推荐文章于 2023-11-30 09:40:21 发布

阅读量1k

点赞数 6

分类专栏：深度学习论文阅读 Deep Learning 文章标签：人工智能

本文链接：https://blog.csdn.net/Hungryof/article/details/111992624

版权

论文：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

transformer主要是增强网络的全局信息利用能力。因为普通的卷积网络都是local信息利用，其在全局信息利用上存在不可避免的短板。所以才会有类似non-local attn的存在。 transformer里面的核心就是attn，
一般来说， $\mathcal{A}(\mathbf{q}_i, \mathbf{K}, \mathbf{V})=Softmax\left(\frac{\mathbf{QK}^T}{\sqrt{d}}\right)\mathbf{V}$ ，其中 $\mathbf{Q}\in \mathbb{R}^{L_Q\times d}$ , $\mathbf{K}\in \mathbb{R}^{L_K\times d}$ , $\mathbf{V}\in \mathbb{R}^{L_V\times d}$ 。而 $\mathbf{q}_i$ 代表的是 $\mathbf{Q}$ 第 $i$ 列（即第 $i$ 个quary）。

举个不太恰当的例子： $q$ ， $K$ 和 $V$ 分别代表 quary, key和value。显然，key和value是配对的。一个key对应一个value。假设你是一个爱学习的孩子（希望确实是哈），然后你去图书馆借书看。那么你喜欢看工科的书，那你就是一个quary，你找的关键词就是 key（工科的书），然后找到的书就是这个key对应的value。不同人（quaries）会根据自己喜好，从而索引不同的关键字（key），最终找到对应的书（value）。

关键: 这里的匹配时，对于每个 $\mathbf{q}_i$ ，我们都要和所有的 $\mathbf{k}_i$ 分别计算相似度，所以复杂度是 $\mathbb{O}(L_QL_K)$ 。

上面的self-attn其实可以写成：

$\mathcal{A}(\mathbf{q}_i, \mathbf{K}, \mathbf{V})=\sum_{j}\frac{k(\mathbf{q}_i, \mathbf{k}_j) }{\sum_{l}k(\mathbf{q}_i, \mathbf{k}_l) }\mathbf{v}_j=\mathbb{E}_{p(\mathbf{k}_j|\mathbf{q}_i)}\left[\mathbf{v}_j\right]$

最低0.47元/天解锁文章

Hungryof

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
transformer的一种加速方法Informer---- 稀疏化quary Q的方法

论文：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecastingtransformer主要是增强网络的全局信息利用能力。因为普通的卷积网络都是local信息利用，其在全局信息利用上存在不可避免的短板。所以才会有类似non-local attn的存在。 transformer里面的核心就是attn，一般来说，A(qi,K,V)=Softmax(QKTd)V\mathcal{A}(\mathbf{q}_i,
复制链接

扫一扫