目录 1、BERT任务目标概述 2、传统解决方案遇到的问题 2.1 传统的RNN 2.2 传统的word2vec 3、注意力机制的作用 3.1 Transformer架构 3.2 Attention机制 3.3 self-attention 计算方法 4、Multi-head 的作用 5、堆叠多层Encoder 6、位置信息编码 7、LayerNorm 与 残差连接 8、Transformer的Decoder 1、BERT任务目标概述 2、传统解决方案遇到的问题 2.1 传统的RNN RNN 无法并行计算 2.2 传统的word2vec 缺点:词向量预训练好后就固定了,同一个词在不同语境中意义不同 3、注意力机制的作用 3.1 Transformer架构 3.2 Attention机制 如上图,如何区分it所指代的关