论文 - 补充理解

本文提出JointKPE,一种多任务架构的关键词提取方法,适用于开放领域,兼顾短语性和信息量。JointKPE在预训练语言模型基础上,通过全局信息度评分提高长尾短语的提取,尤其擅长提取长关键词和非实体关键词。实验表明,JointKPE在OpenKP和KP20k数据集上优于多种基线方法。
摘要由CSDN通过智能技术生成

2021SC@SDUSC

系列文章目录

随着神经网络的发展,神经KPE方法在提取科学出版物的关键词方面已经取得了令人信服的性能。



前言

能够提供文件简洁摘要的关键短语在改善许多自然语言处理(NLP)和信息检索(IR)任务方面显示出其潜力,如总结、推荐和文件检索。

高质量的关键词显示了两个特征,即短语性和信息量。

短语性是指在文档的局部语境中,一连串的词可以作为一个完整的语义单位的程度。
信息量表明一个文本片段在多大程度上抓住了整个文档的整体主题或突出的概念,以前的许多研究利用这两个特征来提高KPE的性能。

近年来,许多研究人员已经开始通过考虑具有不同内容质量的不同提取领域,使神经KPE适应开放的领域场景,如网络KPE。现有的神经KPE方法通常将关键词提取表述为词级序列标签、n-gram级分类和基于跨度的提取等任务。
尽管他们取得了成功,但这些神经方法似乎更注重对关键词的局部语义特征进行建模,这可能导致他们在提取关键词时优先考虑局部的短语,而不是全局文档的信息性。
因此,他们倾向于从开放领域的文档中提取具有语义完整性的关键词,如短的n-grams和head-ish实体,而长尾短语有时会传达更关键的信息。

我们提出了JointKPE,为开放域的关键词提取场景提供服务。
它在多任务训练架构下提取关键词时,可以同时考虑到短语和信息量。

JointKPE首先使用强大的预训练语言模型对文档进行编码,并估计其所有n-grams的本地化信息度。
对于那些具有相同词串但出现在不同语境中的n-grams,JointKPE进一步计算它们在整个文档中的全局信息度得分。
最后,JointKPE学会根据这些关键词候选者的全球信息量分数对其进行排名,并与关键词分块任务联合训练,以捕捉局部短语和全球信息量。
在两个大规模的KPE数据集–OpenKP和KP20k的网页和科学论文上的实验表明,JointKPE与广泛使用的预训练模型BERT及其两个预训练变体SpanBERT和RoBERTa相比具有强大的有效性。

我们的实证分析进一步表明JointKPE在预测开放域场景下的长关键词和非实体关键词方面的优势。

相关工作

自动关键短语提取(KPE)关注的是自动从文档中提取一组重要的和主题性的短语。纵观KPE的历史,最早的带注释的关键词提取语料库来自科学领域,包括

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值