ELMO、BERT、ERNIE、GPT

Tingsie

于 2020-08-15 15:54:48 发布

阅读量432

点赞数

分类专栏：自然语言处理文章标签： bert 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tingsie/article/details/107976659

版权

本文介绍了预训练语言模型ELMO、BERT、ERNIE和GPT，探讨了它们的工作原理和应用场景。ELMO结合正反向上下文生成词向量，BERT利用双向Transformer进行预训练，ERNIE在BERT基础上强化了中文处理，而GPT则是一个生成性预训练模型，基于Transformer的解码器结构。

摘要由CSDN通过智能技术生成

目录

写在最前：这是看了李宏毅老师的视频做的笔记
ELMO、bert、ERNIE、GPT都是预训练语言模型

word embedding是根据词汇的上下文训练出来的
词向量的每一个维度代表了这个词的某些信息
用word embedding 当做某一个词汇的feature

在传统的embedding中，不同的word tokens只要属于同一个word type，那它们的word embedding就是一样的(即它们的vector是一样的)，换句话说每一个word type对应一个embedding。这样有很多不足，因为属于同一个word type的不同的word tokens可能有不同的语义。

现在，我们希望每一个word token都有一个word embedding, 根据这个word token的上下文得出（contextualized word embedding）

ELMO：embeddings from language model

在这里插入图片描述 RNN的hiden layer（图中红色的框）输出的就是当前word token的word embedding
根据上文训练正向的word embedding, 根据下文训练反向的word embedding, 把正反向的vector拼接起来

ELMO原文使用了3种embedding乘以相应的weight 构成最终蓝色的embedding用在下游的任务中

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。