简介
识别文本的命名实体,如人名和机构名称等。每种语言识别出的实体是相互独立的,英文的识别集合比其他语言更为丰富。再NERClassifierCombiner中,会执行多个命名实体识别,然后将结果组合起来。
识别类别
在英文中,命名实体识别能识别的名字包括:人名、地名、机构名、MISC;数字:钱、数字、序号、百分比;时间:日期,时间、持续序列、集合等实体。命名实体的识别使用组合的三个CRF标注序列在不同语料上训练的,如ACE和MUC评测会议的评测语料。数字实体识别使用基于规则的系统实现,同时,数字实体需要进行规范化,如dates