零基础学nlp【7】 BERT
1 前言
本来今天准备写 convolutional sequence to sequence 这一篇论文的,但是下午看了两个小时完全没有看懂,然后顺便看了看这篇很新的BERT论文,发现里面使用的就是上一篇文章提到的self-attention模型,于是决定趁热打铁,先看这一篇,有关cnn seq2seq的下次有需要再看吧。。。。。
2 主要内容
文章题目Bert: Pre-training of deep bidirectional transformers for language understanding,这一句话其实就很准确的概括了文章的所有内容。
- 首先是Pre-training,联想在cv领域中的迁移学习,由于一些特定的任务数据集太少无法建立大型的CNN,所以将一些大