2021SC@SDUSC
系列文章目录
随着神经网络的发展,神经KPE方法在提取科学出版物的关键词方面已经取得了令人信服的性能。
前言
能够提供文件简洁摘要的关键短语在改善许多自然语言处理(NLP)和信息检索(IR)任务方面显示出其潜力,如总结、推荐和文件检索。
高质量的关键词显示了两个特征,即短语性和信息量。
短语性是指在文档的局部语境中,一连串的词可以作为一个完整的语义单位的程度。
信息量表明一个文本片段在多大程度上抓住了整个文档的整体主题或突出的概念,以前的许多研究利用这两个特征来提高KPE的性能。
近年来,许多研究人员已经开始通过考虑具有不同内容质量的不同提取领域,使神经KPE适应开放的领域场景,如网络KPE。现有的神经KPE方法通常将关键词提取表述为词级序列标签、n-gram级分类和基于跨度的提取等任务。
尽管他们取得了成功,但这些神经方法似乎更注重对关键词的局部语义特征进行建模,这可能导致他们在提取关键词时优先考虑局部的短语,而不是全局文档的信息性。
因此,他们倾向于从开放领域的文档中提取具有语义完整性的关键词,如短的n-grams和head-ish实体,而长尾短语有时会传达更关键的信息。
我们提出了JointKPE,为开放域的关键词提取场景提供服务。
它在多任务训练架构下提取关键词时,可以同时考虑到短语和信息量。
JointKPE首先使用强大的预训练语言模型对文档进行编码,并估计其所有n-grams的本地化信息度。
对于那些具有相同词串但出现在不同语境中的n-grams,JointKPE进一步计算它们在整个文档中的全局信息度得分。
最后,JointKPE学会根据这些关键词候选者的全球信息量分数对其进行排名,并与关键词分块任务联合训练,以捕捉局部短语和全球信息量。
在两个大规模的KPE数据集–OpenKP和KP20k的网页和科学论文上的实验表明,JointKPE与广泛使用的预训练模型BERT及其两个预训练变体SpanBERT和RoBERTa相比具有强大的有效性。
我们的实证分析进一步表明JointKPE在预测开放域场景下的长关键词和非实体关键词方面的优势。
相关工作
自动关键短语提取(KPE)关注的是自动从文档中提取一组重要的和主题性的短语。纵观KPE的历史,最早的带注释的关键词提取语料库来自科学领域,包括