实体识别的主要目标:
从文本中识别实体边界及其类型。
实体识别的常用方法:
基于模版和规则:将文本与规则进行匹配来识别出命名实体。
优点:准确,有些实体识别智能依靠规则抽取。
缺点:需要大量语言学知识;需要谨慎处理规则之间的冲突问题;构建规则的过程费时费力,可移植性不好。
基于序列标注的方法:
确定标签体系->选择模型->定义特征->模型训练
其中,特征有:词本身特征:边界特征、词性、依存关系等;前后缀特征:姓氏、地名;字本身的特征:是否是数字、是否是字符。
常用的序列标注模型:
HMM(隐马尔可夫模型):
有向图模型