nlp笔记:超详细(本菜鸡觉得)transformer原理及核心源码笔记(1)
【原文链接】【源码链接】1、Transformer简介 Transformer提出自谷歌2017年的论文(Attention is all your need)不同于之前使用RNN、LSTM、GRU、CNN来作为encoder和decoder,Transformer完全使用注意力机制的模型。之所以选择弃用循环神经网络,是因为循环神经网络的每一次运算,都需要上一时刻的隐藏态数据,导致计算不能并行,增加了计算时间,也浪费了计算机性能。 Transformer的基本模型结构如下图所示,本文会根据论文和源
原创
2021-06-01 22:20:37 ·
601 阅读 ·
1 评论