1. 四个问题
-
解决什么问题
language understanding:transformer主要是用在机器翻译这个小任务上,这里使用的是一个更加广义的词,就是对语言的理解 -
用了什么方法解决
-
Pre-training:在一个数据集上训练好一个模型,这个模型主要的目的是用在另外一个任务上面,所以如果另外一个任务叫training的话,那么在大的数据集上训练的这个任务(模型)就叫做pre-training,即training之前的任务
-
Bidirectional:BERT模型就是一个多层的双向transformer编码器,而且它是直接基于原始的论文和它原始的代码,没有做改动
-
-
效果如何
模型概念上更加简单而且效果更好。它在11个NLP的任务上得到了新的最好的结果 -
还存在什么问题
无法做机器翻译等编码解码任务
?贵?
2. 论文介绍
参考视频文字版
3. 参考资料
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding:https://arxiv.org/pdf/1810.04805.pdf