关键短语抽取及使用BERT-CRF的技术实践

BERT[23]是非常优质的预训练模型,包含了很多预训练语料中蕴含的外部知识和信息。我们以此为基础,训练BERT-CRF模型,作为candidate generation中重要的一路召回。另外的召回路包括基于模板 (pattern)和基于POS tags的NP抽取系统。CRF[12]是序列标注的经典方法,其核心思想是在进行序列标注时,把序列上的各个点当做一个整体来处理,而不是一个个独立的点,各个点的标注结果是有一定依赖关系的,以路径为单位进行训练。因此,通过训练,模型能在理解文本以外,还能理解输出序列的规则性知识,比如,使用BIO标注模式时,O后面不能直接接I。如果直接使用BERT进行序列标注,最后一层的softmax,本质上是n个k分类问题;而BERT-CRF由于CRF layer的存在,本质上是1个k^n分类问题[24]。

Figure 9 BERT与BERT-CRF的对比[24]

为了验证BERT-CRF确实能够提供我们需要的鲁棒的关键短语抽取能力,我们在NER和概念图谱(抽取该应用下定义的keyphrase)两个数据集上进行了以下的实验。

  • NER
    ▫ 来源:https://github.com/zjy-ucas/ChineseNER (PER, LOC, OR)
    ▫ 特点:标准明确且基本固定
  • 概念图谱中的关键短语抽取
    ▫ 来源
    ▪ 自有的标注数据(标准按照前述的两个特点:用户视角 & 精准和泛化)
    ▪ 训练集:来自于sourceA (网络爬取文章)
    ▪ 测试集:来自于sourceB (平安自有文章)

▫ 特点:存在前述的概念飘移问题

对于概念图谱的关键短语抽取,我们希望在sourceA上训练的模型,能够更好地适应于sourceB(当然,我们最终的系统是在sourceA + sourceB + all other sources训练得到的)。实验设定中训练和测试集采用不同来源,是为了在开发阶段,检验搭建的模块是否能够提供我们需要的鲁棒性。

NER数据集上的实验

https://zhuanlan.zhihu.com/p/148502336?from_voters_page=true

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值