命名实体识别

概念

命名实体识别(Named Entity Recognition,NER)
任务是识别文本中的人名、地名等专有名称,和有意义的时间、日期等数量短语等,并加以归类.
命名实体识别是信息抽取的核心任务, 分为两个子任务

  • 判别实体边界
  • 判别实体类型
内容分类
实体类日期类数值类
人名日期货币
地名时间百分比
机构名

(注意不包括普通名词, 比如飞机, 公司等泛指名词)

指标

(同检索的衡量指标)
采用Precision / Recall / F-value加以衡量
准确率 Precision = TP/(TP+FP)
召回率 Recall = TP/(TP+FN)

对数据集的切分
• P/N:Positive or Negative,表示算法对样本的判断
• T/F:True or False,表示算法判断的正确与否
四种简写的含义:
• TP:True Positive,样本为正例,且被判定为正,即真正
• FN:False Negative,样本为正例,但错误地被判定为负,即假负
• FP:False Positive,样本为负例,但错误地被判定为正,即假正
• TN:True Negative,样本为负例,且被判定为负,即真负

F值(F-measure),即准确率与召回率的加权调和平均数, 准确率 P, 召回率 R
F = 1 α 1 P + ( 1 − α ) 1 R = ( β 2 + 1 ) P R β 2 P + R F = \frac{1}{\alpha \frac{1}{P} + (1 - \alpha) \frac{1}{R}} = \frac{(\beta^2 + 1)PR}{\beta^2P + R} F=αP1+(1α)R11=β2P+R(β2+1)PR

α \alpha α β \beta β是设定的参数, 通常取 α \alpha α = 0.5, β \beta β = 1

方法
  • 词典
  • 规则
  • 统计
常用工具

中文

  • NLPIR-ICTCLAS:http://ictclas.nlpir.org/nlpir/
  • HanLP:http://hanlp.linrunsoft.com/
  • NLTK:http://www.nltk.org/

英文

  • Stanford NER https://nlp.stanford.edu/software/CRF-NER.shtml
  • MALLET http://mallet.cs.umass.edu/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值