特征抽取模型

最新推荐文章于 2024-04-08 18:26:53 发布

Chen__Wu

最新推荐文章于 2024-04-08 18:26:53 发布

阅读量1.1k

点赞数

分类专栏：自编码文章标签： bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44079295/article/details/100896583

版权

自编码专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Contextualized Word Embedding
句子中的相同的token可能拥有不同的词向量，因为代表的意思不同。

Embdeding from Language Model（ELMO）
就是做到了相同的token拥有不同的词向量
正向的embedding跟反向过来的embedding连接起来
在这里插入图片描述
中间输出很多层的embedding，ELMO选择将其累加起来，并设置权重系数a1，a2
比如右图的Token、LSTM1，LSTM2 几层embedding有对应的权重（颜色深浅），权重必须通过训练学习所得。

在这里插入图片描述
Bidirectional Encoder Representations from Transformers
Bert关键训练Encoder，简单说输入一个序列，输出一个序列。

在这里插入图片描述
bert采用mask机制，然后内部预测后填充mask，如果没有违和感，那么这两个字或者词向量之间就应该有比较相近的向量。

SEP 间隔句子

如果是做多分类，比如1、2、3、4等各个类别，那么就把类别放在句子最前面，给bert去训练。

在这里插入图片描述
bert解决qa问题，s是答案的开头，e是结尾

红色的向量决定s，蓝色的决定e
如果s在e后面，那么就是问题无答案
在这里插入图片描述

问题的答案就是d2d3

在这里插入图片描述
GPT （1542M）
是tansformer的decoder

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征抽取模型

Contextualized Word Embedding句子中的相同的token可能拥有不同的词向量，因为代表的意思不同。Embdeding from Language Model（ELMO）就是做到了相同的token拥有不同的词向量正向的embedding跟反向过来的embedding连接起来中间输出很多层的embedding，ELMO选择将其累加起来，并设置权重系数a1，a2比...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。