NIP的命名实体识别-长实体的问题

NIL的命名实体识别-长实体的问题

NER任务中,如果某一类实体span比较长(⽐如医疗NER中的⼿术名称是很长的),直接采取CRF解码可能会导致很多连续的实体span断裂,出现破键的问题,面对这个问题,我们应该怎么解决呢?笔者尝试着归纳了以下方法:

1、规则修正

将手术名内的名称转化为符号,比如 胃部分切除术->部位+动作+术,然后后期利用规则合并。
场景:专有名次为–胃部分切除术、胆囊切除术、腰椎管减压术。
方法:在训练ner模型时,可以将一类专业名词改写成一个符号表示,然后后期利用规则合并。
具体操作
胃部分、胆囊、腰椎管…是身体某一部位,可用符号表示;
切除,减压…是一组动作,可用符号表示;
把专业名词拆分成 部位+动作+术 的形式,然后后期利用规则合并。
转化后:
xx胃部分切除术xx,标注:[OOBIIOO]

2、指针网络

引入指针网络+CRF构建多任务学习。指针网络会更容易捕捉较长的span,不过指针网络的收敛是较慢的,可以对CRF和指针网络设置不同学习率,或者设置不同的loss权重

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值