命名实体识别（NER）任务的几种处理思路（自然语言处理项目感悟）

最新推荐文章于 2024-04-13 18:35:29 发布

福将～白鹿

最新推荐文章于 2024-04-13 18:35:29 发布

阅读量1.8k

点赞数

分类专栏：序列标注命名实体识别文章标签：自然语言处理深度学习自认语言处理命名实体识别 NLP

本文链接：https://blog.csdn.net/qq_41475067/article/details/121681915

版权

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

今天和华泰总部的陈姓算法总监聊天，聊到了当前较为实用的处理NER任务的算法方案；今天借着这个机会和大家简单交流下，有心的小伙伴拿好小本子，要开始记笔记了！！！

在这里插入图片描述

我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务，个人这边做了接近30个类别的NER任务，属实是试验了多种多样的NER方案，感受颇多。接下来我这边针对金融领域上市公司的公告数据中的实体识别任务，进行简单总结：

1、金融领域数据特点：

数据稀缺，金融领域的数据稀缺程度超出了我的想象，在我亲自操刀处理的近30个类别中，数据较为充盈的训练集+验证集+测试集全部数据也就300-400条，例如：股份转让、借款类的关联交易等；而更多的是数据稀缺的类别，例如：申请破产清算和法院受理破产清算等，全量数据仅50-60条；
数据标注质量参差不齐，其实这个问题也可以理解，一共就这么点数据，还没标顺手呢，就结束了…，还有一个问题就是各个类别之间要素标注差异较大，很难确定一个一锤定音的标准。

2、个人尝试NER方案包括：

3、各方案效果介绍
在起初尝试的相关类别数据上，数据量408条：

4、各分项准召率数据展示
在这里插入图片描述

关注