Blog1 无监督深度关键短语生成——项目综述

一、项目简介1.项目名称Unsupervised Deep Keyphrase Generation无监督深度关键短语的生成2.项目描述3.具体任务分析关键代码4.应用价值To summarize long documents with a collection of salient phrases.5.主要方法AutoKeyGen6.数据集7.项目成员指导老师:孙宇清指导学生:郑威项目组长:丁陈璐项目组员:王子仪、李妍、刘国华8.
摘要由CSDN通过智能技术生成

2021SC@SDUSC

一、项目简介

1.项目名称

Unsupervised Deep Keyphrase Generation

无监督深度关键短语的生成

2.项目描述

输入一个文档x,输出x对应的一个关键短语列表y(y既包含present关键短语,也包含absent关键短语)。

3.具体任务

分析关键代码:在本篇论文中,经过分析,关键代码为构建关键短语生成模型。

4.应用价值

(1)关键词短语生成的目的是生成一个短语列表,以总结和描述长文档(如研究论文和新闻文章)。它对于诸多自然语言处理下游任务如信息检索、文本摘要和文本分类等具有重要应用价值。

(2)无监督方法不依赖于大量的标注数据。

5.主要方法

AutoKeyGen

6.数据集

论文中将5个数据集进行比较,最终采用KP20k训练集。

模型建立后,将应用于所有五个测试集进行评估。

https://github.com/ memray/OpenNMT-kpg-release

7.项目分工

  1. 给定语料库,首先构建短语库(依据所有文档中出现的present短语)
  2. 依据构建的短语库,提取每个文档的候选absent短语
  3. 依据步骤1、2生成的候选短语,利用tf-idf和词向量的相似性等属性,进行rank(贴标签)
  4. 训练一个absent关键短语生成模型

二、论文分析

论文链接:https://arxiv.org/pdf/2104.08729.pdf

1.INTRODUCTION

(1)关键短语生成(Keyphrase generation):旨在生成一个简短短语列表,以总结和表征长文档。它具有广泛的应用,如信息检索、文本摘要和文本分类等。

在关键短语生成方法中,生成缺失关键短语的能力(即短语没有出现在原始文档中)与依赖文档的关键短语监督之间的权衡长期以来一直存在。

(2)先前方法的不足:提取方法一开始只能预测原始文档中出现的短语。随着深度神经网络的进步,最近的研究能够预测与文档的语义相关但缺失的关键短语。尽管这些方法已经实现了最先进的性能,但所有这些深度模型都受到监督,并且通常需要大量的文档-关键短语对,收集这些信息可能既昂贵又费力。

(3)我们的方法可以在不使用任何人工注释的情况下,生成存在和不存在的关键短语,即:一种新颖的无监督深度关键短语生成方法 AutoKeyGen,如下图所示:

Figure1

 ①从所有文档(Input Corpus)中提取候选当前关键词(Present Candidates),将它们汇集到一个短语库(Phrase Bank)中,然后为每个文档抽取候选不存在关键词(Absent Candidates)。要求候选短语中的每个词干单词都应该存在于输入文档中。

② 根据词汇级别的 TF-IDF 分数和语义级别的候选短语之间的嵌入相似度对所有这些候选词进行排名,选出排名靠前的存在和缺失的候选者(Top-ranked Candidates)。

③利用②中导出的“银”数据来训练深度生成模型。以生成更多可能在文档中缺失或在前面的步骤中遗漏的候选短语。

④当涉及到新文档的推理时,AutoKeyGen 会根据短语库提取候选词并使用 Seq2Seq 模型生成候选词,然后对这些词进行排序,候选词一起遵循与②相同的排名方法(Inference Stage)。

 (4)我们的贡献如下:
①我们对缺失关键短语进行了两项重要观察,阐明了以无监督的方式训练抽象的关键短语模型。
②我们提出了一种新的无监督深度关键短语生成方法 AutoKeyGen,它可以很好地预测存在和缺失的关键短语。
③我们对五个基准数据集进行了大量实验,并证明了我们的方法 AutoKeyGen 优于无监督方法。
在某些数据集上,AutoKeyGen 甚至比最先进的监督方法产生更好的结果。

2.Problem Formulation

我们的目标是建立一个仅基于文档集合 D 的关键短语生成模型,无需任何人工注释的监督。

(1)输入:文档标记序列x=[

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值