命名实体识别学习

1、命名实体识别的概念

        命名实体识别(Named Entity Recognition,简称NER),是指识别文本中的命名实体,主要包括人名、地名、机构名、专有名词、日期等,并将其归纳搭配相应的实体类别中。NER一直是NLP领域中的研究热点,实体识别是语义理解的基础。

        例如:“当地时间 14 日下午,叙利亚一架军用直升机在阿勒坡西部乡村被一枚恶意飞弹击中。”其中的实体有:日期实体“14日下午”、组织机构实体“叙利亚”、地名实体“阿勒坡西部乡村”、装备实体“军用直升机”“飞弹”。

2、命名实体分类

可分为三大类,七小类:

        三大类:实体类 时间类 数字类

        七小类:人名、地名、组织机构名、时间、日期、货币量、百分数

 3、命名实体识别方法和应用

        从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法。

方法

代表技术

核心思想

基于规则

字典、规则

关注规则

基于机器学习

HMM、MEMM、ME、SVM、CRF

关注概率

基于深度学习

BiLSTM-CNN-CRF、BERT-BiLSTM-CRF

关注整体(重点)

        目前常见的应用有:知识图谱构建、机器翻译、知识库构建、自动问答、网络搜索等。

4、命名实体数据集

        CoNLL 2003包括1393篇英语新闻文章,909篇德语新闻文章。英语语料库免费,德语收费。数据集中标注了4种实体类型:PER,LOC,ORG,MISC

        CoNLL 2002西班牙EFE新闻机构共享任务数据集,标注了4种实体类型:PER,LOC,ORG,MISC

        ACE 2004 多语种训练语料库,版权属于语言数据联盟(Linguistic Data Consortium,LDC),包含用于2004年ACE技术评估的全套英语、阿拉伯语和中文培训数据。语言集由为实体和关系标注的各种 类型的数据组成。

        ACE 2005 同2004,数据来源包括微博、广播新闻、广播对话等,可做实体、关系、事件抽取等任务。

        OntoNotes 5.0数据集版权属于LDC,由1745k英语,900k中文和300k阿拉伯语文本数据组成OntoNotes 5. 0 的数据来源也多种多样,来 自电话对话、新闻通讯社广播新闻广播对话和博 客等。 实体被标注为 PERSON, ORGANIZATION, LOCATION 等18个类型。

5、常用标注方法

        IOB标注法CoNLL 2003采用) :I表示内部,O表示外部,B表示开始。若语料中某个词标注 B/I-XXX,表示这个词属于命名实体的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。 当词标注 O 则表示属于命名实体的外部,即它不是一个命名实体

        CoNLL2003标注:人名标注:B-PER、I-PER

                                      地名标注:B-LOC、I-LOC

                                      组织机构标注:B-ORG、B-ORG

                                       不是实体:O

        BIOES标注法(IOB的扩展):B表示开始,I表示内部,O表示外部,E表示结束,S表示这个词是单独形成一个命名实体。(目前较通用)

6、评价指标

精确率(Precision) 对给定数据集 , 分类正确样本个数和总样本数的比值。
召回率(Recall)用来说明分类器中判定为真的正例占总正例的比率
F-1值(F1-Measure):是精确率和召回率的调和平均指标,是平衡准确率和召回率影响的综合指标

7、命名实体识别工具

https://github.com/hankcs/pyhanlpHanLP

 https://github.com/taku910/crfppCRF++

小白学习整理笔记,如有侵权,联系立删

具体技术等等后续根据该框架继续学习~

参考:https://zhuanlan.zhihu.com/p/156914795

一文看懂命名实体识别 - NER(发展史+4类方式+数据集+工具推荐)

陈曙东,欧阳小叶.命名实体识别技术综述[J].无线电通信技术,2020(3):251-260.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值