bert cnn知识抽取模型_关键短语抽取及使用BERTCRF的技术实践

本文介绍了关键短语抽取的重要性和流程,无监督方法包括基于统计、图网络和embedding的方法,有监督方法涉及传统模型和深度学习模型。重点讨论了SIFRank和BERT-KPE两种方法,它们利用预训练模型如BERT和ELMo增强抽取效果。此外,还探讨了在概念图谱构建中使用BERT-CRF模型应对keyphrase飘移问题的实践,通过调整学习率改善模型鲁棒性。
摘要由CSDN通过智能技术生成

c2aed8d3d659d622d60c61b4a9138bb3.gif

全文框架概览

ec22e66bec23c951b56cb795b0bfcb40.png

一、关键短语抽取简介

关键短语抽取 (keyphrase extraction),指从文章中提取典型的、有代表性的短语,期望 能够表达文章的关键内容。

关键短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的关键短语抽取算法,还能有效助力构建知识图谱。

常见的关键短语抽取方法分为有监督 (supervised)和无监督 (unsupervised)。整体抽取流程则分为2个步骤:(1) candidate generation,得到候选短语集合;(2) keyphrase scoring,对候选短语进行打分。

32970acafaa596045ceaa1bc201cbf22.png

Figure 1  Keyphrase整体流程

二、业内方法介绍

无监督方法 

无监督的方法由于其不需要数据标注及普适性,得到了大范围的应用。

c709fce8e199788d68eb2c60f8fd5e10.png

Figure 2  无监督方法概览

1. 基于统计的方法

  • 基于TFIDF的方法是最基本的版本,在得到候选短语集合的基础上(如,利用POS tags抽取noun phrases (NP)),使用term frequency, inverse document frequency对候选短语进行打分,选择高分短语作为关键短语。
  • YAKE[1]除了利用term frequency, term position,还利用了更多基于统计学的特征,希望能更好地表示短语的上下文信息和短语在文章中发挥的作用。

2. 基于图网络的方法

  • TextRank[2]是第一个基于图网络的关键短语抽取算法。该方法首先根据POS tags抽取候选短语,然后使用候选短语作为节点,创建图网络。两个候选短语如果共现于一定的窗口内,则在节点之间创建一条边,建立节点间的关联。使用PageRank[3]算法更新该图网络,直至达到收敛条件。
  • 此后,各种基于图网络的改进算法不断被提出,该类算法也逐渐成为无监督关键短语抽取中应用最广泛的算法。SingleRank[4]在TextRank之上为节点间的边引入了权重。PositionRank[5]通过引入短语的位置信息,创建一个biased weighted PageRank,从而提供了更准确的关键短语抽取能力。

3. 基于embedding的方法:这类方法,利用embedding来表达文章和短语在各个层次的信息(如:字、语法、语义等)。

  • EmbedRank[6]首先利用POS tags抽取候选短语,然后计算候选短语embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。

4a1790df5c310c4872204fd963ffa032.png

Figure 3  典型无监督方法在benchmarks上的效果

有监督方法 

虽然需要花费很多精力进行数据标注,但有监督方法在各个特定任务和数据集上,通常能够取得更好的效果。

5f31fe698828856b64523d1048a20056.png

Figure 4  有监督方法概览

1. 传统的方法

  • KEA[7]是较早期的算法,利用特征向量表示候选短语,如:tf-idf分数和初次出现在文章中的位置信息,使用Naïve Bayes作为分类,对候选短语进行打分和分类。在此之上,许多改进版本的算法也被提出,如:Hulth等人引入语言学知识,提出了改进版本[8]。CeKE[9]在对学术论文进行关键短语抽取时,通过使用论文的引用关系,引入更多特征信息,从而进一步提升了效果。
  • RankingSVM[10]使用learning to rank来建模该问题,将训练过程抽象为拟合ranking函数。
  • TopicCoRank[11]是无监督方法TopicRank的有监督扩展。该方法在basic topic graph之外,结合了第二个图网络。
  • CRF[12]是序列标注的经典算法,利用语言学、文章结果等各种来源特征表示文章,通过序列标注,得到文章的关键短语。

2. 基于深度学习的方法

  • RNN[13]使用了双层RNN结构,通过两层hidden layer来表征信息,并且利用序列标注的 方法,输出最终的结果。
  • CopyRNN[14]使用encoder-decoder结构进行关键短语抽取。首先,训练数据被转换为text-keyphrase pairs,然后训练基于RNN的en
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值