![07ee7a99ad2fe9bea29f5329d8c929b8.png](https://i-blog.csdnimg.cn/blog_migrate/9d9487094e2aa3c9c4b0744fae38fb3d.jpeg)
![8db573095539a1355e953c154212d0c8.png](https://i-blog.csdnimg.cn/blog_migrate/a1019717b1d0d8bd67f2d18f753e514b.png)
今天我们想到 NLP 就会想到 BERT,在 NLP 领域中 BERT 到处屠榜。BERT 主要应用于自然语言处理中的预训练。这里想说一件有趣的事,就是当下比较火的自然语言处理模型如 ElMo 和 BERT 都是动画片芝麻街中角色。
![2f5fde7ba2f6311868f2ac48115c820b.png](https://i-blog.csdnimg.cn/blog_migrate/aaccd6144a3f5f20f5d9283216d71960.png)
BERT(Bidirectional Encoder Representations from Transformers)
![299e641f5ce71c1df749ce9a292227c2.png](https://i-blog.csdnimg.cn/blog_migrate/f1c6c8c94cdffed85446404a230a11d3.png)
那么什么是 BERT 呢? 我们先从字面上解释一下什么是 BERT。
- Bidirectional : 是双向神经网络,这个在学习 RNN 时候我们就了解到如何使用双向 RNN 让每一个词视野更加广阔,不但可以看到其前面词还能看到后面的词
- Encoder : 说明 BERT 是编码器
- Representations : BERT 是完成词的表现的任务的模型
- Transformer: 表示 BERT 结构没有采用 LSTM 这样 RNN 结构,而是采用了 Transformer 这样结构来实现双向循环神经网,Transformer 对象 LSTM 的优势是并行计算
想了解 Transformer 可以参照
2020机器学习 Transform 模型(1)
2020机器学习 Transform 模型(2)
2020机器学习 Transform 模型(3)
我们先用一句话来概括一下 BERT ,BERT 做的事情就是接受一个句子,会输出一个词的表示,这就是 BERT所做的事情。