经典论文阅读（6）——ERNIE

最新推荐文章于 2023-07-21 11:02:27 发布

fmf1287

最新推荐文章于 2023-07-21 11:02:27 发布

阅读量1.7k

点赞数

分类专栏：经典论文文章标签：深度学习人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmf1287/article/details/121167898

版权

经典论文专栏收录该内容

10 篇文章 2 订阅

订阅专栏

在本文中，我们提出了一个称为ERNIE的模型，通过知识mask策略实现知识整合。除了基本的mask策略外，我们还使用了两种知识mask:短语级mask和实体级mask。

Transformer编码器

ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息，并生成一系列上下文embedding。

知识集成

提出了一种多阶段知识mask策略，将短语级和实体级知识整合到语言表示中，而不是直接加入知识embedding。

基本级mask

英语的基本语言单位是单词，中文的基本语言单位是汉字。随机屏蔽15%的基本语言单位并通过上下文对屏蔽的基本语言单位进行预测。由于它是在基本语言单位的随机mask上进行训练，高层次的语义知识很难被完全建模。

短语级mask

短语是一组词或字符。对于英语，使用词法分析和组件工具来提取句子中短语的边界，在汉语中使用分词工具来获取词/短语信息。在本阶段随机选择句子中的短语进行mask并预测同一短语中的所有基本单元。

实体级mask

与短语mask阶段一样，我们首先分析句子中的命名实体，然后mask并预测实体中的所有槽。

实验

ERNIE使用12个编码层，768的隐藏单元和12个注意力头。ERNIE采用异构语料库进行预训练，包括中文维基，百度百科，百度新闻，百度贴吧。

结论

ERNIE在5个中文语言处理任务中表现都比BERT好，我们证实了知识整合和对异构数据的预训练都能使模型获得更好的语言表示。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
经典论文阅读（6）——ERNIE

在本文中，我们提出了一个称为ERNIE的模型，通过知识mask策略实现知识整合。除了基本的mask策略外，我们还使用了两种知识mask:短语级mask和实体级mask。Transformer编码器ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息，并生成一系列上下文embedding。知识集成提出了一种多阶段知识mask策略，将短语级和实体级知识整合到语言表示中，而不是直接加入知...
复制链接

扫一扫

专栏目录

fmf1287 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

3万+: 周排名

147万+: 总排名

3万+: 访问

: 等级

213: 积分

3031: 粉丝

19: 获赞

16: 评论

185: 收藏

私信

关注

分类专栏

最新评论

GCN论文阅读与代码梳理（4）——GAT
全粘大学生: 注意力共享是什么意思
GCN论文阅读与代码梳理（3）——ASTGCN
wys0910: 现在用pyg的代码好少啊，全是自己手动写，我功力没那么厚啊
GCN论文阅读与代码梳理（3）——ASTGCN
infinity°º: 麻烦问下博主。有原来paper的代码吗？可以共享下吗
GCN论文阅读与代码梳理（3）——ASTGCN
沉下心来_: rhs = T_k_with_at.permute(0, 2, 1).matmul(graph_signal) # (N, N)(b, N, F_in) = (b, N, F_in) 因为是左乘，所以多行和为1变为多列和为1，即一行之和为1，进行左乘。有人理解这句话的意思吗
GCN论文阅读与代码梳理（2）——STGCN
z937453919: GitHub上一大堆

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。