(在新浪搜索部实习,方向为基于crf的中文命名实体识别,现将自己一个月的学习总结如下,本人也是初学者,文中所讲仅为个人理解,错误之处欢迎各位指正)
第一部分:基础知识
1.1 命名实体识别概念
命名实体识别: 把文本中出现的命名实体包括人名,地名,组织机构名等实体识别出来并且加以归类,它是自然语言处理的基本任务,是机器翻译,信息检索等技术的基础。
1.2:命名实体识别的方法 1)基于规则的方法 2)基于统计的方法
1)基于规则的方法
eg:“胡德君作为实习生加入了新浪公司”。
在基于规则的系统中,它会根据【人名】作为一名【职位名】 加入了【机构名】这样的规则,提取出“新浪公司”这个机构名。
缺点:规则的设计过程耗时且容易产生错误,难以涵盖所有的语言现象,需要富有经验的语言专家才能完成,并且可移植性差。
2)基于统计的方法
主要是利用标注语料库来训练某个字作为命名实体组成部分的概率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一阈值,则识别为命名实体。
与规则方法相比:基