Importance Estimation from Multiple Perspectives for Keyphrase Extraction阅读笔记

这篇论文探讨了关键短语抽取中的重要性评估方法,提出从句法准确性、信息显著性和概念一致性三个维度综合考虑。模型利用RoBERTa编码和CNN生成候选词,并通过softmax、成对学习和概念一致性评估进行关键词排序。实验指出n-gram方法带来的大量候选词挑战,但有助于发现更多潜在重要词。
摘要由CSDN通过智能技术生成

Importance Estimation from Multiple Perspectives for Keyphrase Extraction 阅读笔记

论文简单介绍

  • 题目 Importance Estimation from Multiple Perspectives for Keyphrase Extraction

  • 作者 Mingyang Song, Liping Jing and Lin Xiao

  • 单位 北京交通大学

  • 时间 2021

  • 会议 EMNLP21

动机

  • 关键词抽取的经典步骤为:候选关键词生成,候选关键词重要性评估。从人类理解文档的角度来看,我们通常同时根据其句法准确性、信息显著性和概念一致性来衡量短语的重要性。但是以前的方法,最多只从两个角度评估候选词的重要性。

模型

在这里插入图片描述

模型主要分为候选单词抽取和关键词重要性评估两大块

1.候选单词抽取

  • 首先对所有的token用RoBERTa进行编码,采取最后一层向量当作其词向量

  • 然后使用CNN结合n-grams方法生成候选关键词

在这里插入图片描述

2.关键词重要性评估

2.1 句法准确性

在这里插入图片描述

如图所示,使用一个softmax函数进行评估句法准确性,损失函数采用二进制交叉熵函数,其中 y i y_i yi是原始文档中出现该候选词

2.2 信息显著性排名

利用成对学习方法对候选关键词进行全局排序,以比较所有候选关键词之间的信息显著性

  • 第一步,将原文中出现的候选词送入正样例集合 p + p^+ p+中,其他的送入负样例集合 p − p^- p中。以此获得排名标签

  • 损失函数是standard hinge loss

在这里插入图片描述

在这里 I 2 ( . ) I_2(.) I2(.)代表的是对信息的显著性估计,这样就会使得模型优先选择正样例集合 p + p^+ p+中的候选词

具体来说,第in-gram的表示 c i n c_i^n cin可以用上图所示的公式6所示,其中 W 2 W_2 W2是一个可训练的矩阵, b 2 b_2 b2是一个偏置。作者说通过显著性排序模块就可以筛选出具有高显著性的候选关键词

2.3 概念一致性评估

一堆公式,高斯分布和潜在变量啥的。感觉公式多,复杂,参数多对于顶会有加成。

这里面公式太多了,我不太理解,大意就是一个文档会有多个主题,候选词应该与其中某一个或多个主题有高度一致性

只要有了文本和候选词的潜在向量表示z z i n z_i^n zin,那么就可以用下图的公式来评估候选词和文档的一致性

在这里插入图片描述

在公式7中 W 3 W_3 W3是一个学习到的映射矩阵。损失函数用公式8表示,它会使得模型对候选关键词进行文档一致性评估

实验

在这里插入图片描述

我的思考

  1. 在候选关键词生成时使用n-gram方法,这种方法会使得候选的词数量非常大,与传统的词性规则相比就不是一个量级。假设一般短文本有500个单词,那么bigrams=500 * 500 = 2500,trigrams = 500 * 500 * 500,4-grams = 500 * 500 * 500 * 500。而传统的词性规则过滤后最多只有100个词左右,这完全就不是一个量级。n-grams方法产生的噪音实在是太多了。
  2. 使用n-gram的好处就是增大了各种可能性,传统的词性规则筛选采用的是最大匹配,这就会导致很多候选词压根没有机会。这也会导致由于分词原始造成的指标损失
  3. 想要中顶会,公式越多越复杂越好。。。。
  4. 感觉一致性那块另一种方式就是主题建模,区别感觉不大。
  5. 其实我真的好奇它在于语义多样性那一块是怎么处理的,毕竟n-gram真的会生成太多的高度相似的单词。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值