Importance Estimation from Multiple Perspectives for Keyphrase Extraction 阅读笔记
论文简单介绍
-
题目
Importance Estimation from Multiple Perspectives for Keyphrase Extraction
-
作者
Mingyang Song, Liping Jing and Lin Xiao
-
单位
北京交通大学
-
时间
2021
-
会议
EMNLP21
动机
- 关键词抽取的经典步骤为:候选关键词生成,候选关键词重要性评估。从人类理解文档的角度来看,我们通常同时根据其句法准确性、信息显著性和概念一致性来衡量短语的重要性。但是以前的方法,最多只从两个角度评估候选词的重要性。
模型
模型主要分为候选单词抽取和关键词重要性评估两大块
1.候选单词抽取
-
首先对所有的token用
RoBERTa
进行编码,采取最后一层向量当作其词向量 -
然后使用CNN结合
n-grams
方法生成候选关键词
2.关键词重要性评估
2.1 句法准确性
如图所示,使用一个softmax函数进行评估句法准确性,损失函数采用二进制交叉熵函数,其中 y i y_i yi是原始文档中出现该候选词
2.2 信息显著性排名
利用成对学习方法对候选关键词进行全局排序,以比较所有候选关键词之间的信息显著性
-
第一步,将原文中出现的候选词送入正样例集合 p + p^+ p+中,其他的送入负样例集合 p − p^- p−中。以此获得排名标签
-
损失函数是
standard hinge loss
在这里 I 2 ( . ) I_2(.) I2(.)代表的是对信息的显著性估计,这样就会使得模型优先选择正样例集合 p + p^+ p+中的候选词
具体来说,第i
个n-gram
的表示
c
i
n
c_i^n
cin可以用上图所示的公式6所示,其中
W
2
W_2
W2是一个可训练的矩阵,
b
2
b_2
b2是一个偏置。作者说通过显著性排序模块就可以筛选出具有高显著性的候选关键词
2.3 概念一致性评估
一堆公式,高斯分布和潜在变量啥的。感觉公式多,复杂,参数多对于顶会有加成。
这里面公式太多了,我不太理解,大意就是一个文档会有多个主题,候选词应该与其中某一个或多个主题有高度一致性
只要有了文本和候选词的潜在向量表示z
和
z
i
n
z_i^n
zin,那么就可以用下图的公式来评估候选词和文档的一致性
在公式7中 W 3 W_3 W3是一个学习到的映射矩阵。损失函数用公式8表示,它会使得模型对候选关键词进行文档一致性评估
实验
我的思考
- 在候选关键词生成时使用
n-gram
方法,这种方法会使得候选的词数量非常大,与传统的词性规则相比就不是一个量级。假设一般短文本有500个单词,那么bigrams=500 * 500 = 2500
,trigrams = 500 * 500 * 500
,4-grams = 500 * 500 * 500 * 500
。而传统的词性规则过滤后最多只有100个词左右,这完全就不是一个量级。n-grams
方法产生的噪音实在是太多了。 - 使用
n-gram
的好处就是增大了各种可能性,传统的词性规则筛选采用的是最大匹配,这就会导致很多候选词压根没有机会。这也会导致由于分词原始造成的指标损失 - 想要中顶会,公式越多越复杂越好。。。。
- 感觉一致性那块另一种方式就是主题建模,区别感觉不大。
- 其实我真的好奇它在于语义多样性那一块是怎么处理的,毕竟
n-gram
真的会生成太多的高度相似的单词。