命名实体识别(NER)任务的几种处理思路(自然语言处理项目感悟)

今天和华泰总部的陈姓算法总监聊天,聊到了当前较为实用的处理NER任务的算法方案;今天借着这个机会和大家简单交流下,有心的小伙伴拿好小本子,要开始记笔记了!!!

在这里插入图片描述

我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务,个人这边做了接近30个类别的NER任务,属实是试验了多种多样的NER方案,感受颇多。接下来我这边针对金融领域上市公司的公告数据中的实体识别任务,进行简单总结:

1、金融领域数据特点:

  • 数据稀缺,金融领域的数据稀缺程度超出了我的想象,在我亲自操刀处理的近30个类别中,数据较为充盈的训练集+验证集+测试集全部数据也就300-400条,例如:股份转让、借款类的关联交易等;而更多的是数据稀缺的类别,例如:申请破产清算和法院受理破产清算等,全量数据仅50-60条;
  • 数据标注质量参差不齐,其实这个问题也可以理解,一共就这么点数据,还没标顺手呢,就结束了…,还有一个问题就是各个类别之间要素标注差异较大,很难确定一个一锤定音的标准。

2、个人尝试NER方案包括:

  • LSTM + CRF
  • BERT + CRF
  • LAC(分词 + NER) + textcnn 分类(字模型、词模型)
  • 规则(文本 + 表格)

3、各方案效果介绍
在起初尝试的相关类别数据上,数据量408条:

  • LSTM + CRF :召回率不足70%;
  • BERT + CRF:召回率不足72%;
  • LAC(分词 + NER) + textcnn 分类(字模型):召回率接近76%;
  • LAC(分词 + NER) + textcnn 分类(词模型):召回率超过80%;

4、各分项准召率数据展示
在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值