中文命名实体识别

命名实体识别(Named Entity Recognition)

    命名实体识别是NLP里一项很基础的任务,就是从文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则等方式识别)。当然,在特定领域中,会相应地定义领域内的各种实体类型。

中文命名实体识别的难点:

1.中文文本不像英文有空格作为词语的界限标志,而且中文词的概念很模糊,也不具备英文中的字母大小写等形态指示

2.中文的用字灵活多变,有些词语在脱离上下文语境的情况下无法判断是否是命名实体,而且就算是命名实体,当其处在不同的上下文语境下也可能是不同的实体类型

3.命名实体存在嵌套现象,如“北京大学第三医院”这一组织机构名中还嵌套着同样可以作为组织机构名的“北京大学”,而且这种现象在组织机构名中尤其严重

4.中文里广泛存在简化表达现象,如北京大学,简称北大。

1.基于规则的方法

根据对数据的了解,利用规则匹配来识别出命名实体。例如,文本中提到“说”、“老师”等词语可作为人名的下文,“地铁站”、‘大厦’可以做地名的下文,还可以利用词性,句法结构等。如果要做其他语言的实体识别,还需要注意语法结构不同,那么识别规则也不尽相同。此外,构建规则的过程费时费力、可移植性不好。

2.判别式模型--CRF

 

3.BILSTM+CRF模型

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值