【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练,用于Ad-hoc检索

本文介绍了基于维基百科结构化信息设计的新型预训练目标,旨在改进IR任务的深度学习模型。实验显示,该方法在零样本和微调设置中优于现有模型,并在生物医学和法律等垂直领域表现优异,特别适用于长文本相似性匹配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

e56cdac9807ac0a01da7bf7ab2fa8d3d.png

来源:专知
本文为论文介绍,建议阅读5分钟
在本文中,我们根据维基百科的结构化知识,设计了四个针对IR任务的预训练目标。

59a510f124be0fb4933e5a5c9e097a95.png

随着深度学习和自然语言处理技术的发展,预训练语言模型已广泛用于解决信息检索(IR)问题。得益于预训练和微调的范式,这些模型实现了最先进的性能。在以前的工作中,维基百科中的纯文本在预训练阶段被广泛使用。然而,维基百科中的丰富结构化信息,如标题、摘要、层次化标题(多级标题)结构、文章之间的关系、参考文献、超链接结构和写作组织,并未被充分探索。在本文中,我们根据维基百科的结构化知识,设计了四个针对IR任务的预训练目标。与现有的预训练方法相比,我们的方法通过利用维基百科中由人类编辑的结构化数据,可以更好地捕获训练语料库中的语义知识。在多个IR基准数据集上的实验结果显示,与现有强大的检索基线相比,我们的模型在零样本和微调设置中均表现出色。此外,在生物医学和法律领域的实验结果表明,与以前的模型相比,我们的方法在垂直领域中实现了更好的性能,尤其是在需要长文本相似性匹配的场景中。代码可在 https://github.com/oneal2000/Wikiformer 获取。

d5b342708a797cdc2d33a048806b9796.png

42b64aaf49ea1115fbb2169ba4c94e0c.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值