Attention Is All You Need 论文笔记
本文参考的原始论文地址:https://arxiv.org/abs/1706.03762概述传统的序列任务一般通过循环神经网络来解决,但是不管是单向还是双向的循环神经网络都无法实现运行运算,一个单元的运算依赖于其他部分的结果。为了解决并行运算的问题,可以使用CNN模型,对于同一层的卷积操作时,不同的卷积核可以并行的执行。但是在比较浅层的卷积层时,卷积核只能覆盖到很小的一块区域,只有更深的卷积层中的卷积核可以覆盖比较广的数据,因此使用CNN的局限就在于获取输入的信息需要多个卷积层操作,这就导致了网络模型会





