bert cnn知识抽取模型_关键短语抽取及使用BERTCRF的技术实践

最新推荐文章于 2024-08-21 08:55:55 发布

weixin_39969953

最新推荐文章于 2024-08-21 08:55:55 发布

阅读量1.9k

点赞数

文章标签： bert cnn知识抽取模型

本文链接：https://blog.csdn.net/weixin_39969953/article/details/112185317

版权

本文介绍了关键短语抽取的重要性和流程，无监督方法包括基于统计、图网络和embedding的方法，有监督方法涉及传统模型和深度学习模型。重点讨论了SIFRank和BERT-KPE两种方法，它们利用预训练模型如BERT和ELMo增强抽取效果。此外，还探讨了在概念图谱构建中使用BERT-CRF模型应对keyphrase飘移问题的实践，通过调整学习率改善模型鲁棒性。

摘要由CSDN通过智能技术生成

全文框架概览

一、关键短语抽取简介

关键短语抽取 (keyphrase extraction)，指从文章中提取典型的、有代表性的短语，期望能够表达文章的关键内容。

关键短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的关键短语抽取算法，还能有效助力构建知识图谱。

常见的关键短语抽取方法分为有监督 (supervised)和无监督 (unsupervised)。整体抽取流程则分为2个步骤：(1) candidate generation，得到候选短语集合；(2) keyphrase scoring，对候选短语进行打分。

Figure 1 Keyphrase整体流程

二、业内方法介绍

无监督方法

无监督的方法由于其不需要数据标注及普适性，得到了大范围的应用。

Figure 2 无监督方法概览

1. 基于统计的方法

基于TFIDF的方法是最基本的版本，在得到候选短语集合的基础上(如，利用POS tags抽取noun phrases (NP))，使用term frequency, inverse document frequency对候选短语进行打分，选择高分短语作为关键短语。
YAKE[1]除了利用term frequency, term position，还利用了更多基于统计学的特征，希望能更好地表示短语的上下文信息和短语在文章中发挥的作用。

2. 基于图网络的方法

TextRank[2]是第一个基于图网络的关键短语抽取算法。该方法首先根据POS tags抽取候选短语，然后使用候选短语作为节点，创建图网络。两个候选短语如果共现于一定的窗口内，则在节点之间创建一条边，建立节点间的关联。使用PageRank[3]算法更新该图网络，直至达到收敛条件。
此后，各种基于图网络的改进算法不断被提出，该类算法也逐渐成为无监督关键短语抽取中应用最广泛的算法。SingleRank[4]在TextRank之上为节点间的边引入了权重。PositionRank[5]通过引入短语的位置信息，创建一个biased weighted PageRank，从而提供了更准确的关键短语抽取能力。

3. 基于embedding的方法：这类方法，利用embedding来表达文章和短语在各个层次的信息(如：字、语法、语义等)。

EmbedRank[6]首先利用POS tags抽取候选短语，然后计算候选短语embedding和文章embedding的cosine similarity，利用相似度将候选短语排序，得到关键的短语。

Figure 3 典型无监督方法在benchmarks上的效果

有监督方法

虽然需要花费很多精力进行数据标注，但有监督方法在各个特定任务和数据集上，通常能够取得更好的效果。

Figure 4 有监督方法概览

1. 传统的方法

KEA[7]是较早期的算法，利用特征向量表示候选短语，如：tf-idf分数和初次出现在文章中的位置信息，使用Naïve Bayes作为分类，对候选短语进行打分和分类。在此之上，许多改进版本的算法也被提出，如：Hulth等人引入语言学知识，提出了改进版本[8]。CeKE[9]在对学术论文进行关键短语抽取时，通过使用论文的引用关系，引入更多特征信息，从而进一步提升了效果。
RankingSVM[10]使用learning to rank来建模该问题，将训练过程抽象为拟合ranking函数。
TopicCoRank[11]是无监督方法TopicRank的有监督扩展。该方法在basic topic graph之外，结合了第二个图网络。
CRF[12]是序列标注的经典算法，利用语言学、文章结果等各种来源特征表示文章，通过序列标注，得到文章的关键短语。

2. 基于深度学习的方法