图解时间自适应卷积----Time-aware Large Kernel Convolutions

最新推荐文章于 2024-03-19 16:15:27 发布

JL__Liu

最新推荐文章于 2024-03-19 16:15:27 发布

阅读量737

点赞数

文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/Liu_Jilong/article/details/117307548

版权

论文：Time-aware Large Kernel Convolutions
链接：arxiv.org/pdf/2002.03184v1.pdf

偶尔看到一篇比较有意思的论文，其提出的方法设计得很巧妙，在提高运算速度、减少计算开销的同时保持了性能。

这篇论文提出了一种对Transformer的改进。提出使用时间自适应卷积(Time-aware Large Kernel Convolutions)替代Transformer种的self attention以提高计算的效率。

Transformer在计算self attention时，复杂度为 $O (n ²)$ ，要计算每个token和所有token之间的相关性，计算耗时大。在这篇论文之前，已经有提出过动态卷积，可以用于此处使用卷积网络来对语义建模，从而降低计算的时间复杂度，将其从 $O (n ²)$ 降低到 $O (k n)$ ，此处 $k$ 为卷积核的大小。而本文提出的方法，进一步的降低了时间复杂度，将其降低为 $O (n)$ 。

方法：时间自适应卷积

假定输入为长度为 $n$ 的文本序列 $X=\lbrace x_1,x_2,...,x_n \rbrace$ ，其中 $x_i$ 均为维度为 $d$ 的向量， $i$ 表示第 $i$ 次卷积操作。

每次卷积的计算公式为： $o_i=\sum_{i=a_i^l}^{a_i^r}{x_j}$ ， $1≤a_i^l≤i≤a_i^r≤n$

上式中， $a_i^l$ 和 $a_i^r$ 分别表示窗口的左右两端，从左加到右既完成卷积，这意味着卷积核的系数均为1，卷积过程中只需累加，无需进行乘法计算。

每次卷积都按顺序累加效率不高，存在很多重复的工作，因此作者使用累加和： $S_i=S_{i-1}+x_i, S_0=0$

$S_i$ 表示输入序列 $X$ 的前 $i$ 项的累加，故卷积结果 $o_i$ 可以用累加和表示： $o_i=S_{a_i^r}-S_{a_i^l-1}$

每次卷积时，窗口的长度是不定的，需要根据 $x_i$ 的值来确定。所以在此首先计算窗口长度的相对值：
$a_i^l=i-\widetilde{a}_i^l·l_{max}$ $a_i^r=i+\widetilde{a}_i^r·r_{max}$
其中， $l_{max}$ 和 $r_{max}$ 分别为左右窗口允许的最大长度； $\widetilde{a}_i^l$ 和 $\widetilde{a}_i^r$ 为窗口左右长度的相对大小，其定义为 $\widetilde{a}_i=sigmoid(f_i(x_i))$ ，定义中的 $f_i$ 函数并未给明确的定义，只需要其为具有降为能力即可，将维度为 $d$ 的向量转化为一个实数。

在获得了左右窗口的实际长度后，需要用其计算 $o_i$ ，此时面临一个问题， $o_i$ 的计算公式中， $S$ 的下标均为整数，而算得的实际窗长为小数，此处作者认为两点之间为线性关系，对其进行采样。
$S_{a_i^l-1}=\gamma^l·S_{\lfloor{a_i^l}\rfloor-1}+(1-\gamma^l)·S_{\lceil{a_i^l}\rceil-1}$ $S_{a_i^r}=(1-\gamma^r)·S_{\lfloor{a_i^r}\rfloor}+\gamma^r·S_{\lceil{a_i^r}\rceil}$
其中 $\lfloor{*}\rfloor$ 和 $\lceil{*}\rceil$ 分别表示向下和向上取整， $\gamma^l=\lceil{a_i^l}\rceil-a_i^l$ ， $\gamma^r=a_i^r-\lfloor{a_i^r}\rfloor$ 。

至此，论文中提出的方法基本概括完毕，更多细节可以在论文里查看。

图解：

模型输入 $X=\lbrace x_1,x_2,...,x_n \rbrace$ ：
卷积 $o_i=\sum_{i=a_i^l}^{a_i^r}{x_j}$ ， $1≤a_i^l≤i≤a_i^r≤n$ ：

以 $i=4,a_i^l=2,a_i^r=3$ 为例。

累加和 $S_i$ :
用 $S$ 表示 $o$ :
计算相对窗长：

$f$ 为任意一个 $d$ 维至1维的映射函数，再通过sigmoid()将其值限制在0到1之间。在乘以窗长最大值获得实际窗长。
当 $S_i$ 中的 $i$ 为自然数

将论文中的公式稍加变形，更容易看出规律
$S_{a_i^l-1}=\gamma^l·S_{\lfloor{a_i^l}\rfloor-1}+(1-\gamma^l)·S_{\lceil{a_i^l}\rceil-1}=S_{\lceil{a_i^l}\rceil-1}-\gamma^l·(S_{\lceil{a_i^l}\rceil-1}-S_{\lfloor{a_i^l}\rfloor-1})$ $S_{a_i^r}=(1-\gamma^r)·S_{\lfloor{a_i^r}\rfloor}+\gamma^r·S_{\lceil{a_i^r}\rceil}=S_{\lfloor{a_i^r}\rfloor}+\gamma^r·(S_{\lceil{a_i^r}\rceil}-S_{\lfloor{a_i^r}\rfloor})$
不妨假定 $i = 3$ ， $l_{max}=2$ ， $l_{max}=2$ ， $\widetilde{a}_3^l=0.3$ ， $\widetilde{a}_3^r=0.7$ ，那么有
$a_3^l=2.4，\lceil{a_3^l}\rceil=3，\lfloor{a_3^l}\rfloor=2，\gamma^l=0.6$ $a_3^r=4.4，\lceil{a_3^r}\rceil=5，\lfloor{a_3^r}\rfloor=4，\gamma^r=0.4$
在这里插入图片描述
此时，可计算 $o_3=S_{4.4}-S_{1.4}$

总结

这篇论文所提出的时间自适应卷积在很大程度上降低了Transformer的计算复杂度，在论文里的数据中有所展示，在此只做方法解析。

以上均为个人理解，如果错误欢迎指出。如需转载请标记出处。

JL__Liu

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
图解时间自适应卷积----Time-aware Large Kernel Convolutions

论文：Time-aware Large Kernel Convolutions链接：arxiv.org/pdf/2002.03184v1.pdf偶尔看到一篇比较有意思的论文，其提出的方法设计得很巧妙，在提高运算速度、减少计算开销的同时保持了性能。这篇论文提出了一种对Transformer的改进。提出使用时间自适应卷积(Time-aware Large Kernel Convolutions)替代Transformer种的self attention以提高计算的效率。Transformer在计算sel
复制链接

扫一扫