一种基于语义的上下位关系抽取方法
作者:陈金栋,肖仰华
单位:复旦大学计算机科学学院
一、精简总结
本文提出了一种强模板和语义模板结合的上下位抽取框架,预抽取阶段结合强模板提高精度,迭代抽取阶段结合语义模板提高召回率。
二、引言
- 上下位关系也称为 isA 关系。
- 早期的分类体系如WordNet是人工构建的,精度高规模小
- 基于模板的方法是分类体系构建的主流方法之一
- 文献[5]利用人工定义的Hearst模板
- 文献[6]提出了bootstrapping框架
- 大部分句法模板都面临了低质量或者低覆盖率的问题,高质量高覆盖率的模板非常少;跨语言能力弱。
- bootstrapping存在语义漂移问题
三、相关研究
3.1 基于模板
基于模板的方法使用句法模板从文本中抽取上下位关系:
- 文献[5]是第一个将句法模板用于上下位关系抽取,提出了一套自动化的上位词获取算法,利用Hearst模板从非结构化文本中获取上位词。
- 文献[6]提出了一套迭代式算法从互联网数据中抽取上下位关系。该算法定义一些种子关系实例,利用它们获取新的句法模板,这些句法模板可用于抽取新的关系实例,重复执行上述步骤,直到没有新的关系实例产生为止。
- 文献[12]使用搜索引擎发现匹配句法模板的句子并从中抽取上下位关系。
文 献[13]训练一个上下位关系分类器来发现有用的依赖路径,然后将分类器用在新的语料上识别新的上下位关系。 - Liu等[14]提出了一套迭代抽取中文上下位关系方法,只用到了两个强句法模板,完全忽略了弱句法模板。
- Wu等[11]提出了一套英文上下位关系抽取方法,构建了一个大规模的英文分类体系。
上述方法没有严格区分高质量模板和低质量模板,都面临了低精度或低覆盖率的问题。
3.2 基于百科
基于百科全书的方法从相对结构化的百科全书中抽取上下位关系:
- 文献[9]以维基百科的种类系统为数据源,把它建模成一个语义网络,将语义网络中的关系分为上下位关系和非上下位关系。
- 文 献[10]将 维基百科的种类系统中的概念映射到WordNet来获取大量的上下位关系。
- 类似的方法也可用于中文,文 献[8,15]使用相似的方法分别从中文维基百科和百度百科中抽取上下位关系。这种方法的精度较高,但是覆盖率较低。
3.3 基于嵌入
基于嵌入的方法将单词或短语映射到一个隐式的向量空间,然后基于这些向量发现上下位关系:
- 文献[16]基于词向量来获取上下位关系。
- 文献[17]将语法规则也映射到隐式空间,为发现上下位关系提供更多的特征。
但是这些模型的精度较低(80%左右) ,这导致了此类方法不满足实际工程的需要
四、句法模板和语义模板
高质量的模板可以产生高精度的上下位关系,而低质量的模板倾向于产生低精度的上下位关系。因此,根据模板精度将其分为强句法模板和弱句法模板。
4.1 句法模板
-
定义一:模板P的精度
式中:分母表示模板P从语料库中抽取的上下位关系数量;分子表示这些关系中是正确的上下位关系数量
-
定义二
给定一个模板精度阈值γ,如果模板P满足pre(P)≥γ,则它是一个强句法模板;反之,它是一个弱句法模板。
例如,阈值y=0.85时,表1中前两个为强模板,后两个为弱模板。 -
Hearst语义模板
-
元语义模板
在Hearst句法模板基础上发展而来,定义了CON和ENT两个占位符,在后面用相应的概念名词进行替换。
五、框架
六、实验
详见原文。。。
总结
本文根据句法模板的质量,将其分成更细粒度的强句法模板和弱句法模板,并将语义信息融入弱句法模板来构建语义模板。基于强句法模版和语义模板提出了一套通用的、有效的上下位关系抽取框架,从文本中抽取上下位关系。从中文维基预料中抽取得到32万的上下位关系,精度超过94%。本文方法具有高精度和高召回率的特点。此外它还可用于其他语言,只需要调整区分强弱句法模板的阈值。在中英文数据上进行了实验,实验结果证明了方法的有效性和通用性。
未来工作方向分为两部分:第一是将本文的框架用在更大规模的语料上进行上下位关系抽取来构建一个大规模高质量的中文分类体系;第二使用更多的弱句法模板,来进一步提高召回率