LinkBERT: Pretraining Language Models with Document Links 论文阅读

小白的咆哮

已于 2023-05-30 21:02:14 修改

阅读量408

点赞数 3

分类专栏： NLP 文章标签：语言模型人工智能自然语言处理论文阅读

于 2023-05-30 16:09:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZhenL9911/article/details/130945931

版权

NLP 专栏收录该内容

5 篇文章

订阅专栏

这是一篇来自斯坦福大学的工作，被ACL2022接收。

文章地址：https://arxiv.org/abs/2203.15827

源码地址：https://github.com/michiyasunaga/LinkBERT

目录

3.1 引入文档图的概念

3.2 预训练任务

3.21 输入实例

3.22 训练目标

4、获取文档链接的策略

5.2 实验结果

0、摘要

作者发现在目前的LM（语言模型）中，预训练阶段都只能学习到一篇文章的知识，而不能获得跨文档的依赖知识。基于这个问题作者提出了LinkBERT模型，该模型对多跳推理和小样本QA领域上效果很好。

1、引言

作者所定义的跨文档知识。

维基百科上的文章“Tidal Basin, Washington D.C.”(左)描述了该盆地举办“National Cherry Blossom Festival”。超链接文章(右)显示，这个节日庆祝的是“Japanese cherry trees”。

这个超链接提供了单一文档无法提供的新知识(例如“Tidal Basin has Japanese cherry trees”)，它可以用于各种应用，包括回答“你在潮汐盆地能看到什么树?”这个问题。

超链接、参考文献这种文档是随处可见的且很容易收集，以此来指导我们人类扩展知识，推理知识。作者做就是以这种方式让模型学习更多和目标文档相关的知识以达到更好的效果。

2、结论

提出一种预训练语言模型LinkBERT，在各个数据集上的表现均优于BERT。该模型在多跳推理、多文档理解和小样本问答方面都取得了显著的进步，这表明使用文档链接信息进行预训练可以让模型比现有的lm学习到更多有效的知识。

3、LinkBERT

LinkBERT：自监督的预训练方法。

3.1 引入文档图的概念

LinkBERT模型是基于语言和基于图的自监督学习的自然融合。具体来讲，作者将预训练语料库视为一个文档图G = (X, E)，其中E(X(i), X(j))，这里的E表示文档之间的链接。

文档图的构建方法：

1.对于网站，当A文章中有文档B的超链接，则构造一条从A指向B的超链接。

2.对于论文，当A文章中引用了B文章，则构造一条从A指向B的超链接。

3.2 预训练任务

3.21 输入实例

构造输入：[CLS] XA [SEP] XB [SEP].其中XA是从语料库中抽取的一个锚文本片段。XB有3个来源：

1.XA的下一句话

2.随机文档中的一句话

3.文档图中XA指向的文档中抽出的一句话

同时，还要对输入的部分token做mask。

3.22 训练目标

两大训练任务：

1.MLM：和BERT一样，用以在最终层预测所有的token。

2.DRP(Document Relation Prediction)：替换掉了BERT中的NSP(Next Sentence Prediction)任务，用以预测文档A和文档B的三种关系（连续，随机，链接）。

训练的损失函数：

4、获取文档链接的策略

作者任务关联文档的选取需满足下列三个要求：

1.Relevance：选取的文档必须和当前文档有关系

2.Salience：选取的文档可以提供新的、有用的知识。作者认为仅通过计算词汇相似度来选择文档是不可行的，那样只能筛选出重复的知识。

3.Diversity：一些知识可能被反复多次作为文档图中的入度。但是由于我们目的是要学习更多的新的知识，所以要降低这些频次高的文档被选中的概率。作者使文档选中的概率与文档的入度成反比。

5、实验

5.1 预训练

选择和BERT相同的语料库：Wikipedia和BookCorpus.除了该模型使用了维基百科的超链接外，预训练的数据和BERT都是相同的。

BaseLine：BERT.

5.2 实验结果

在各个要求多文档的推理数据集上（HotpotQA, TriviaQA, SearchQA），LinkBERT都比BERT有较大提升。

使用TF-IDF来选择相关文档，效果并不好。同时证明了作者对于选择文档要求Salience的必要性。

小白的咆哮

博客等级

码龄4年

5
原创

18
点赞

22
收藏

469
粉丝

关注

私信

热门文章

分类专栏

NLP 5篇

最新评论

REPLUG: Retrieval-Augmented Black-Box Language Models 论文阅读
CSDN-Ada助手: 非常恭喜您撰写了第5篇博客！标题“REPLUG: Retrieval-Augmented Black-Box Language Models 论文阅读”引起了我的兴趣。您对这篇论文的阅读和理解能够提供给读者更深入的洞察力。继续保持创作的势头，您在分享学术研究方面的努力和坚持都是非常值得称赞的。对于下一步的创作建议，我建议您可以考虑在博客中加入您个人对于该论文的思考和观点，这将为读者提供更全面的思路和深度。另外，您可以尝试与其他读者互动，了解他们对于这篇论文的看法，这将为您提供更多的学术交流机会。总之，您的博客已经为读者提供了很多有价值的内容，期待在未来看到更多精彩的文章！
REPLUG: Retrieval-Augmented Black-Box Language Models 论文阅读
欣宝儿90: 博主理解的很到位
RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
REALM: Retrieval-Augmented Language Model Pre-Training 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
REALM: Retrieval-Augmented Language Model Pre-Training 论文阅读
欣宝儿90: 我是你铁粉，加个好友哥

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小白的咆哮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。