自然语言处理学习笔记八(命名实体识别)

背景

          句子经过分词、词性标注之后,已有了初步结构化的趋势。下游应用如果更加关注某类词汇,可以直接根据词性标签来找到它们。但词性标注的作用范围仅限于单个单词,多个单词构成的复合词通常需要在分词和词性标注的结果之上,进行一次复合词的识别,称为命名实体识别

一、概述

      1.1  命名实体

       文本中描述实体的词汇,如人名、地名、组织名等;它是人们最关注的词汇,往往也是信息抽取任务的焦点。

       各个领域都有自己的命名实体,各取所需。但所有的命名实体都具备共性:

           数量无穷、构词灵活、类别模糊。

      1.2 命名实体识别

        识别出句子中命名实体的边界与类别的任务称为命名实体识别,它是一个统计为主、规则为辅的任务。

       对于规则性比较强的命名实体,先通过正则表达式进行匹配,作为预处理过程进行。

       对于较短的命名实体,通过分词确定边界,通过词性标注模块确定类别,为此只需要普通的分词词性标注模块及相应的语料库,不需要专门的命名实体模块与语料库。

       对于复合词的命名实体,则需要一个专门的命名实体识别模块。

二、基于规则的命名实体识别

       2.1 基于规则的音译人名识别

       2.2 基于规则的日本人名识别

       2.3 基于规则的数词英文识别

 三、命名实体识别语料库

      3.1  1998年《人民日报》语料库

      3.2  微软命名实体识别语料库

四、基于层叠隐马尔可夫模型的角色标注框架

      角色标注框架是一个统计命名实体识别框架,是为构成命名实体的短词语打标签,标签序列满足某种模式则识别为某种命名实体。规则系统根据词典的匹配规则来确定,统计方法可根据隐马尔可夫模型的预测来确定。

      该框架中劫色标注模块的输入是分词模块的输出,两个模块都是由隐马尔可夫模型驱动,所以称为层叠隐马尔可夫模型。根据识别目标的不同,角色标注所使用的标注集也不同。

      4.1  基于角色标注的中国人名识别

      4.2  基于角色标注的地名识别

     4.3  基于角色标注的机构名识别

五、基于序列标注的命名实体识别

       角色标注框架也是一种序列标注,但是其标注集需要根据具体问题手工编制,费时费力,不够灵活。因此出现了灵活的序列标注框架。

       命名实体识别实际上可以看作分词与词性标注任务的集成,命名实体的边界可以通过{B,M,E,S}确定,类别可以通过B-nt等附加类别的标签来确定。

     5.1  特征提取

     特征模板

转移特征词语特征词性特征
y(t-1)word (t-2)
word(t-1)tag(t-1)
word(t)tag(t)
word(t+1)tag(t+1)
word(t+2)

     其中,t表示当前正在提前特征的位置,y表示标签,word表示单词,tag表示词性。

     5.2  基于隐马尔可夫模型序列标注的命名实体识别

     5.3 基于感知机序列标注的命名实体识别

     5.4 基于条件随机场序列标注的命名实体识别

     5.5 命名实体识别标准化评测

          模板特征会影响准确率,选用庞大复杂的模板特征,会牺牲效率提高了准确率。

         内部程序算法、外部语料库都会影响准确率。

         通常而言,当语料库较小时,应当采用简单的特征模板,以防止模型过拟合;当语料库较大时,建议使用更多特征,以提高准确率。当特征模板固定时,语料库越大,准确率越高。

六、自定义领域命名实体识别

     6.1 标注领域命名实体识别语料库

    6.2 训练领域模型

七、总结

        作为监督学习的应用,命名实体识别离不开标注语料库、设计特征模板、训练、评估准确率等一套机器学习流程。将命名实体识别模块与中文分词模块、词性标注模块组合在一起,可以形成一个词法分析器。

       

  

    

    

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值