命名实体识别的几点心得

最新推荐文章于 2024-08-02 23:26:24 发布

Edison0816

最新推荐文章于 2024-08-02 23:26:24 发布

阅读量922

点赞数 1

分类专栏：人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a8530764/article/details/107575556

版权

人工智能同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

自然语言处理

7 篇文章 1 订阅

订阅专栏

ner模型除了用词典规则之外，主要就是特征提取器+crf模型了。

特征提取可以采用onehot、词频向量、w2v、lstm、cnn、bert等其中的一种或者组合。

本人现在在做能源领域的知识图谱，对ner优化有点几点心得，分享给大家，供参考。

心得1：字向量 or 词向量

词向量会存在oov情况，需要人工维护。

字向量可能会学不出来词语的关系，采用带双向功能的特征提取器可缓解此问题，比如bilstm、bert等。

在训练数据质量较差的时候（比如口语化较多，错别字较多，简称缩写较多等），采用字向量的效果好于词向量。

心得2：特征提取的选择

onehot、词频向量几乎不会用了，因为有更好的特征提取器。

句子比较长，bert有优势，选bert。

句子较短，选用lstm、bilstm、cnn。

根据我的经验，在句子不怎么长的情况下，用bilstm+crf模型，总可以优化出一个不错的结果。句子较长的情况下，用bert+crf模型，也同样可以优化出一个不错的结果。

心得3：一个小trick

在训练ner模型时，可以将一类专业名词改写成一个符号表示。

举例来说，我现在做能源电厂设备实体识别，用设备缺陷单记录作为训练数据，

比如：#1机组1A锅炉磨煤机故障，#2机组2C炉磨煤机故障。实体是磨煤机。

#1机组、#2机组、#3机组...是一类机组名词，可用<Unit>符号表示。

1A锅炉，1A炉，1B炉，1C锅炉...是一类锅炉专业名词，可用<Speciality>符号表示

上面两个句子可改写成：<Unit><Speciality>磨煤机故障，标注：[OOBIIOO]。

在我这个实体识别项目里，改写前，召回率81%，改写后召回率达到了95%。

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。