Spanbert

最新推荐文章于 2024-04-23 17:17:46 发布

guohahaya

最新推荐文章于 2024-04-23 17:17:46 发布

阅读量441

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37008037/article/details/106292178

版权

SpanBERT是一种改进的BERT预训练模型，通过Span Mask策略和Span Boundary Objective增强性能，尤其在分词选择任务中表现出色。模型不再依赖单个token表示，取消Next Sentence Prediction任务，采用更长的上下文进行训练。

摘要由CSDN通过智能技术生成

https://blog.csdn.net/weixin_37947156/article/details/99210514

https://zhuanlan.zhihu.com/p/75893972 mask 计算3.8

首先想到的做法，既然现在遮盖子词，那能不能直接遮盖整个词，比如说对于 super + man，只要遮盖就两个同时遮盖掉，这便是 Google 放出的 BERT WWM 模型所做的。

在本文中，作者提出了一个新的分词级别的预训练方法 SpanBERT ，其在现有任务中的表现优于 BERT ，并在问答、指代消解等分词选择任务中取得了较大的进展。对 BERT 模型进行了如下改进：

提出了更好的 Span Mask 方案，SpanBERT 不再对随机的单个 token 添加掩膜，而是对随机对邻接分词添加掩膜；
通过加入 Span Boundary Objective (SBO) 训练目标，通过使用分词边界的表示来预测被添加掩膜的分词的内容，不再依赖分词内单个 token 的表示，增强了 BERT 的性能，特别在一些与 Span 相关的任务，如抽取式问答；
用实验获得了和 XLNet 类似的结果，发现不加入 Next Sentence Prediction (NSP) 任务，直接用连续一长句训练效果更好。

这篇论文中提出了一种新的mask的方法，以及一个新损失函数对象。并且讨论了be

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spanbert

这篇论文中提出了一种新的mask的方法，以及一个新损失函数对象。并且讨论了bert中的NSP任务是否有用　如上图所示，首先这里的mask策略是span mask。具体的做法是首先从一个几何分布中采样span的长度，且限制最大长度为10，然后再随机采样（如均匀分布) span的初始位置。整个训练任务就是预测mask的token，另外mask的比例问题和bert中类似。除了这些之外还有两个策略，一是动态mask，在bert中是在数据预处理阶段对一条序列随机不同的mask 10次，而在这里是...
复制链接

扫一扫

guohahaya CSDN认证博客专家 CSDN认证企业博客

码龄8年

16: 原创

32万+: 周排名

161万+: 总排名

4万+: 访问

: 等级

521: 积分

7: 粉丝

59: 获赞

0: 评论

260: 收藏

私信

关注

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。