鱼羊 十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
像素层面上,CNN能做的,自注意力(self-attention)也都能做。
统御NLP界的注意力机制,不仅被迁移到了计算机视觉中,最新的研究还证明了:
CNN卷积层可抽取的特征,自注意力层同样可以。
△论文地址:https://arxiv.org/abs/1911.03584
这项工作来自洛桑理工学院,研究表明:
只要有足够的头(head)和使用相对位置编码,自注意力可以表达任何CNN卷积滤波层。
此外,还中选ICLR 2020,在Twitter上也受到了广泛的关注。
在论文摘要末尾,作者还霸气的附上了一句:
代码已开源!
多头自注意力层如何表达卷积层?
众所周知,Transformer的兴起,对NLP的发展起到了很大的作用。
它与以往的方法,如RNN和CNN的主要区别在于,Tranformer可以同时处理输入序列中的每个单词。
其中的关键,就是注意力机制。
尤其是在自注意力情况下,可以无视单词间的距离,直接计算依赖关系,从而学习一个句子中的内部结构。
那么,问题来了:自注意力能替代CNN吗?