关键词提取——有监督方法

最新推荐文章于 2024-03-14 15:12:15 发布

一只小菜狗:D

最新推荐文章于 2024-03-14 15:12:15 发布

阅读量2.3k

点赞数 6

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/init__/article/details/121065786

版权

NLP 专栏收录该内容

10 篇文章

订阅专栏

在上一篇博客中，介绍了关键词提取的无监督方法：点击这里查看文章。本篇主要是介绍关键词提取的有监督方法。

可以从如下角度去做有监督学习：

二分类模型：短语是否为关键短语。
LTR（learn to rank）：学习排序模型，选取top K 的作为关键短语。
encoder-decoder：类似翻译的思想，将文本作为源语言，关键短语作为目标语言。
序列标注：类似于实体识别的思路，实体识别提取实体词，这里提取关键短语。

对于上述的每种方法，都用1~2个模型去说明。

特征

在这里插入图片描述
二分类模型可以利用上述特征，构建二分类模型，判断短语是否为关键短语。与之相关的，可以看一下KEA: Practical Automatic Keyphrase Extraction这篇论文，它使用tf-idf值与位置信息作为特征，以朴素贝叶斯作为二分类模型，从而判断某个短语是否为关键短语。

LTR

RankingSVM
A Ranking Approach to Keyphrase Extraction使用RankingSVM来建模该问题。

使用的特征：

The features include TF-IDF score, phrase length, position of phrase’s first occurrence, phrase’s appearance in document title, uniformity of phrase’s distribution within document (measured by entropy), frequency of most and least frequent word of phrase, etc.

rankingsvm简介：

rankingsvm是一种pointwise的排序算法。给定文档 $d$ ，关键词 $k_1>k_2>k_3$ ，意味着关键词 $k_1$ 比 $k_2,k_3$ 都更相关。令 $x_1,x_2,x_3$ 是 $k_1，k_2，k_3$ 的特征，则， $x_1-x_2,x_1-x_3,x_2-x_3$ 为正样本； $x_2-x_1,x_3-x_1,x_3-x_2$ 为负样本。那么问题就重新转变为分类问题。可用SVM进行分类。

Bert-KPE
Capturing Global Informativeness in Open Domain Keyphrase Extraction，中使用了Pairwise ranking loss作为其rank损失。具体的论文分析，详见我的博客。

Encoder-Decoder

论文Deep Keyphrase Generation中使用encoder-decoder完成关键词的抽取。

Deep Keyphrase Generation的源码地址。

Deep Keyphrase Generation：

问题定义：

假设语料库中包含N条语料，对于其中的第 $i$ 条语料，定义为 $x^{(i)},p^{(i)})$ ，其中 $x^{(i)}$ 是源文本，而 $p^{(i)}$ 是长度为 $M_i$ 的向量（ $M_i$ 表示目标关键短语的数目），那么 $p^{(i)}=(p^{(i,1)},\cdots,p^{(i,M_i)})$ 。对于源文本和关键短语，都可以将其拆分为word level的表示，因此，有：
在这里插入图片描述
$x^{(i)},p^{(i)})$ 可以转变为 $M_i$ 个对： $((x^{i},p^{(i,1)}),\cdots,(x^{i}p^{(i,M_i)}))$ ，为了方便起见，将这些pair用 $(x, y)$ 表示。

encoder-decoder model:
encoder部分，目标是获得源文本的表征 $c$ 。 $c$ 的计算方式如下：
在这里插入图片描述

其中， $f, q$ 都是非线性函数。得到文本的表征后，利用 $c$ 对其进行解码。于是有：

decoder部分：将 $c$ 解码成变长 $y=(y_1,y_2,\cdots,y_{T'})$ 。
在这里插入图片描述
$s_t$ 是decoder RNN在时刻t的隐状态。g是一个softmax函数。

encoder 和 decoder 的细节：
值得一提的是，在实际工作中，将encoder部分转变为双向GRU得到 $H$ ，decoder使用前向GRU得到 $S$ 。除此之外，生成表征时可以使用attention机制：
在这里插入图片描述
Copying Mechanism:
为了保证学到的表征的质量以及减少词库的大小，一般来说，RNN只会包含30000个常用的词，有大量的长尾词被忽略了（英文情况），这会使得decoder没法生成包含未登陆词的短语。而重要的短语其实与其所在的位置以及语法信息有关，Copying Mechanism通过从原文中获取word，从而能够输出OOV，但包含在源文本中的词。