Transformer模型总结
Transformer模型
谷歌2017年文章《All you need is attention》提出Transformer模型,文章链接:
http://arxiv.org/abs/1706.03762
下面对几个基于Transformer的主要的模型进行简单总结。
BERT
来自文章《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。
整个模型可以划分为embedding、transformer、output三部分。
- embedding部分由word embedding、position embedding、token type embedding三个模型组成,三个embedding相加形成最终的embedding输入。
- transformer部分使用的是标准的Transformer模型encorder部分。
- output部分由具体的任务决定。对于token级别的任务,可以使用最后一层Transformer层的输出;对于sentence级别的任务,可以使用最后一层Transfo