人物关系抽取是实体关系抽取的一种情况。实际上是两个过程:命名实体识别和关系抽取。
一般情况下,是给定一个文本,要求找出其中的人物实体(姓名), 和它们之间的关系种类。需要判定的关系种类往往有很多种,需要判定是否是其中的一种,以及到底是哪一种。
一般情况下,都会有训练数据和测试数据,二者的格式和内容主题不会相差多远。
对于命名实体识别,可以使用CRF做,有工具可以调用;也可以使用汉语言处理包HanLP来完成。汉语言处理包HanLP具有Java接口,可以直接调用来完成命名实体的识别和句法分析。
关系抽取,关系的种类可能有很多种,而且彼此直接可能非常相似,因此具有一定的辨识难度,根据对训练数据的处理,可以对每一个关系种类建立一个等价类,认为文本中出现了其中的词语,则含有此类关系。如果文本中不包含所有等价类的词语,则认为不存在其中任意一种关系。等价类不宜太大,甚至可以直接采用关系种类的那个词语建立一个仅仅包含有一个词语的等价类,为了提高效果,可以进行不同程度的扩充,但是需要根据情况进行把握。