预训练模型 ELMO BERT ERINE GPT

最新推荐文章于 2024-06-29 19:25:54 发布

无知书童

最新推荐文章于 2024-06-29 19:25:54 发布

阅读量409

点赞数

分类专栏： # NLP 文章标签： ELMO BERT ERINE GPT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28404829/article/details/100129693

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

预训练模型

One-Hot

在这里插入图片描述
apple与cat点积为0
cat与dog点积为0
One-Hot方式没有学到词的内在表示

Word Embedding

在这里插入图片描述
在word embedding过程当中，这四个bank会被压缩成同一个向量，但是这四个向量的含义却不一样。

Contextualized Word Embedding

Eac
词嵌入过程当中，考录语境上下文。

Embedding from Language Model(ELMO)

在这里插入图片描述
通过RNN上下文，高烧退了和臣退了当中的“退了”这个词会被压缩成不同向量。

在这里插入图片描述
考虑到逆向，多层RNN拼接。

不同RNN层产生的向量如何组合，根据不同的任务自动学习组合参数。

Bidirectional Encoder Representations from Transformers(BERT)

在这里插入图片描述
BERT，使用字"潮",“水"比使用词"潮水”，应该效果更好。

BERT训练方法1，以15%的概率挖空一个词，通过Linear Multi-class Classifier预测改词。

BERT训练方法2，预测两个句子是不是上下文关系。

BERT使用案例：情感分析、文档分类
在这里插入图片描述
n到n任务，词性标注，命名实体识别。

输入两个句子，输出一个分类，自然语言推理。

问答，提取问题在文档中的答案。

跟EMLO一样，BERT分为24层，根据不同的任务，自动训练每一层的组合权重。

Enhanced Representation through Knowledge Integration（ERNIE）

在这里插入图片描述
针对于中文设计，在Bert Masked过程当中，随机盖住一些字，但是在中文环境中，应该为随机盖住一些词。

Generative Pre-Training（GPT）

参数特别巨大。
NERT为Transformer的Encoder，GPT为Transformer的Decoder。
在这里插入图片描述

GPT2因为参数比较多，在使用过程中可以达到Zero-shot Learning。
参考：
https://www.bilibili.com/video/av56235038?from=search&seid=16286882987918084780

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
预训练模型 ELMO BERT ERINE GPT

预训练模型One-HotWord EmbeddingContextualized Word EmbeddingEmbedding from Language Model(ELMO)Bidirectional Encoder Representations from Transformers(BERT)Enhanced Representation through Knowledge Integra...
复制链接

扫一扫

专栏目录

博客等级

码龄9年

129
原创

65
点赞

285
收藏

53
粉丝

关注

私信

热门文章

分类专栏

最新评论

4 傅里叶级数的复数形式
流星奶香包: 注意一下，“欧拉公式”中的sinθ公式有误，应该是 sinθ=-i/2[e^(iθ)-e^(-iθ)]。作者此处没有乘以i。
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN
njz: 你确定这是acl 2018文章，希望能严谨点 https://acl2018.org/programme/papers/
1 三角函数的正交性
duangduangduang136: gch别学咯
Knowledge Base Question Answering via Encodin of Complex Query Graphs
x2213500360: 我对博主在文中提到的几点的看法：首先是查询图生成中，类型链接，意思应该是粗鲁地结合一个词、两个词或者三个词构成提及(mentions)，例如图2a中，US 和 president这两个词构成类型的提及，与这个类型提及相似度高的两个类型是us_president和us_vice_president。其次是类型约束，只接收答案节点IsA谓词的约束。在图2d中给出了例子，答案节点A的类型是us_president，用谓词约束IsA相连，其他的谓词约束不接收意思应该是只考虑谓词是IsA约束。最后的问题：为什么会得到多个 q 向量，问题不是只有一个，难道是局部压缩有多个？每一个q都是由全局信息和不同的局部信息构成的，它的局部信息与语义组件是相对应的。可以认为一个语义组件表示句子中的一部分局部语义信息，这一部分局部语义信息与q向量的局部信息是对应的。但是我也不太懂例子中第二和第三个语义组件对应的局部依赖序列应该是怎么样的，希望有大佬解答。以上都是个人理解，有理解错误的地方还请指出。
2 线性化泰勒级数泰勒公式
Miaaam: 能问问为什么x-x0还在吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。