概念
命名实体识别(Named Entity Recognition,NER)
任务是识别文本中的人名、地名等专有名称,和有意义的时间、日期等数量短语等,并加以归类.
命名实体识别是信息抽取的核心任务, 分为两个子任务
- 判别实体边界
- 判别实体类型
内容分类
实体类 | 日期类 | 数值类 |
---|---|---|
人名 | 日期 | 货币 |
地名 | 时间 | 百分比 |
机构名 |
(注意不包括普通名词, 比如飞机, 公司等泛指名词)
指标
(同检索的衡量指标)
采用Precision / Recall / F-value加以衡量
准确率 Precision = TP/(TP+FP)
召回率 Recall = TP/(TP+FN)
对数据集的切分
• P/N:Positive or Negative,表示算法对样本的判断
• T/F:True or False,表示算法判断的正确与否
四种简写的含义:
• TP:True Positive,样本为正例,且被判定为正,即真正
• FN:False Negative,样本为正例,但错误地被判定为负,即假负
• FP:False Positive,样本为负例,但错误地被判定为正,即假正
• TN:True Negative,样本为负例,且被判定为负,即真负
F值(F-measure),即准确率与召回率的加权调和平均数, 准确率 P, 召回率 R
F
=
1
α
1
P
+
(
1
−
α
)
1
R
=
(
β
2
+
1
)
P
R
β
2
P
+
R
F = \frac{1}{\alpha \frac{1}{P} + (1 - \alpha) \frac{1}{R}} = \frac{(\beta^2 + 1)PR}{\beta^2P + R}
F=αP1+(1−α)R11=β2P+R(β2+1)PR
α \alpha α和 β \beta β是设定的参数, 通常取 α \alpha α = 0.5, β \beta β = 1
方法
- 词典
- 规则
- 统计
常用工具
中文
- NLPIR-ICTCLAS:http://ictclas.nlpir.org/nlpir/
- HanLP:http://hanlp.linrunsoft.com/
- NLTK:http://www.nltk.org/
英文
- Stanford NER https://nlp.stanford.edu/software/CRF-NER.shtml
- MALLET http://mallet.cs.umass.edu/