中文多元组联合标注工具LAnn介绍
摘要
大约在一年前,三元组联合标注工具LAnn发布出来了:LAnn。这是为方便我课题所设计并实现的一款三元组标注软件,限定为封闭关系和”头实体-关系-尾实体“的元组角色。但后来参加了百度所举办的多模态信息抽取比赛,发现用三元组来表征现实世界的事实(知识)是不够的,因此在LAnn的基础上进行了扩展,引入了元组角色标注。
多元组标注工具的基本功能和LAnn一样,但略有差别,本文主要针对这些差别进行介绍。
元组角色标注的引入
在三元组标注的情况中,元组的角色默认为了”头实体-关系-尾实体“,其中头实体和尾实体是我们选定的,关系则是在预定义中的关系选择的。但是在实际情况中,有些事实(知识)是三元组无法表征的,例如”吴京在战狼电影中扮演冷锋的角色“,对于”吴京(头实体),扮演(关系),战狼(在作品),冷锋(尾实体)“这样的事实,元组中的每个元素都是必要的。仍然使用三元组”吴京(头实体),扮演(关系),冷锋(尾实体)“是不准确的,显然吴京扮演过很多的角色。
更进一步的,在事件抽取任务中,有更多的实体参与事件,并且在事件中具有不同的角色,三元组更