研究生期间其实关注了实体链接(Entity Linking)、共指消解(Coreference Resolution)、细粒度实体分类(Fine-grained Entity Typing)这几项技术。初步完成了毕设之后,也算留些文字总结一下相关的技术。
什么是细粒度实体分类?
细粒度实体分类(Fine-grained Entity Typing,FET)技术是信息抽取技术的关键任务,为信息抽取技术中的实体链接[1]、关系抽取[2]等技术提供重要的支撑作用,此外也可直接为问答系统[3]等知识图谱的下游应用提供帮助。
根据实体类型的粒度不同,学术界存在命名实体识别(Name Entity Recognition,NER)与细粒度实体分类两个任务。前者需要将文本中的提及(mention)抽取出来,并且判断其在上下文中的类型,通常为person(人),location(位置)等粗粒度,因此判断提及类型的子任务可以认为是粗粒度实体分类(Coarse-grained Entity Typing);后者则需要在提及已经给定的情况下,依据上下文给提及赋予一个或多个实体类型,不同的是细粒度实体分类中的目标类型通常更加细致,而且类型之间会形成一棵类型树,比如actor(男演员)是person(人)的子类型,airport(机场)是facility(人造设施)的子类型。图1给出了一个细粒度实体分类系统的