论文《Attention is all you need》对比了self-attention、RNN和CNN在自然语言处理中的性能。self-attention在计算复杂度上通常优于RNN,尤其适合长序列任务,通过restricted self-attention可进一步降低复杂度。尽管CNN的计算复杂度高于RNN,但卷积层数可能需增加以处理长距离依赖。self-attention能并行处理,且能有效捕获长距离依赖,而受限的self-attention在牺牲部分长距离依赖学习能力的同时,降低了计算需求。
论文原文Attention is all you need:https://arxiv.org/pdf/1706.03762.pdf输入序列(x1,x2,...,xn)(x_1,x_2,...,x_n)(x1,x2,...,xn)输出序列(z1,z2,...,zn)(z_1,z_2,...,z_n)(z1,z2,...,zn)xi,zi∈Rdx_i,z_i \in R^dxi,zi∈Rdn:序列长度d:表征维度k:卷积大小r:restricted self-attentio