文章目录
题目
BERT深入浅出|用代码说话
详解
我们通常看到的bert模型大多张上图这个样子,对我们知道bert是由多个Transformer堆叠而成的,并且它只用到了Transformer的encoder部分,下面我就来详细的介绍一下bert的由来,以及它是如何训练来理解语义的。
背景
提出bert模型之前就已经有人提出了要用预训练来提高模型在各自任务上的性能
至于为什么要用预训练来训练模型,原因有二
- 使用预训练模型的效果更好,因为它有三大特征——大算力、大模型、大数据,通常可以达到很好的效果
- 使用预训练后的模型可以更好实现其他不同的下游任务,节省了很多其他时间,并且只需要微调就可以有很好的成绩
那个时候GPT,ELMO早以横空出世,但是为什么bert更加深得人心呢?让我们看看下面的对比:
模型对比
对比项目 | BERT | GPT | ELMo | Word2Vec |
---|