目录
摘要
上下位词关系(is-a)是分类法, 对象层次结构和知识图的重要组成部分. 尽管英语中的"is-A关系"提取研究很多, 但由于语言表达的灵活性以及中文与英语之间的显着差异, 从中文知识源中准确识别这种关系仍然是一个挑战. 论文引入了一个弱监督框架来从用户生成的类别中提取中文is-a关系. 它采用在从Wikipedia建立的现有中文分类法上训练的分段线性投影模型和迭代学习算法来逐步更新模型参数. 提出了一种基于模式的关系选择方法, 以防止使用双准则优化的学习过程中的“语义漂移”.
一、论文方法概述
论文研究的主要工作: 预测汉语分类学习中的上下位词关系. 上下位词关系(简称: is-a关系), 上下位词关系(简称: is-a关系)是分类法.
论文的任务: 给定一个实体和其类别集, 旨在预测每个类别名称是否是实体的上位词.
考虑从用户生成的类别中获取关系的问题. 之所以使用用户生成的类别作为知识源, 是因为这些知识的类别、概念和主题是人们通过在线的Wikipedia和垂直网站人工添加的. 因为它们为实体提供了高质量的候选上位词关系.
论文采用了以前基于[Wikipedia]建立的现有中文分类法[User generated content oriented Chinese taxonomy construction. ]作为最初的知识来源。在这项工作中, 论文将中文维基百科作为知识来源, 开发挖掘方法以从维基百科中提取实体、类和is-a关系, 并使用自下而上的策略来构建整个分类法. 已构建了一个知识图谱的基本框架称为 Taxonomy.
二、初始化中文分类
论文在已构建得知识图谱Taxonomy中采样出部分is-a 关系数据, 记作R(论文中指出每个is-a关系词对都存在传递闭包关系). 随后从中取出传递闭包的关系集合, 记作. 可以理解在这个集合中的关系数据为可信度较高的数据. 相当于已经确定得正样本集.
假设从外部获取的实体集合E, 集合中每个元素的父子集记为Cat(x), 未标记的词对可以表示为:
需要设计一个基于的学习算法F来预测x和y之间是否存在is-a关系
初始实验: 论文介绍了现有的使用偏移量来计算两个实体间关系的方法, 将v(x)表示为单词x的嵌入向量,然后计算了的偏移量大小,这里的y是x的上位词.
但使用单个模型很难保留从各种数据源和域中提取的is-a关系的所有语言规律. 此外, 从一个知识来源学习的模型不一定能有效地从另一个来源提取is-a关系. 单个映射模型并不能很好地学到这个空间的映射关系. 比如, 在开放域的数据集下, 可能表示自然界生物的领域知识与表示金融经济类领域知识的空间表示差异过大.
三、论文整体框架
在具有超过10亿个单词的中文文本语料库上训练Skip-gram模型, 以获得单词嵌入. 在Skip-gram模型中, 每个单词x都投影到其低维嵌入向量v(x). 之后对数线性分类器将词向量作为输入并预测上下文单词, 在形式上给定单词x其上下文词为u的概率定义为:
(其中V是整个文本语料库的词汇集合)
四、模型训练
分段线性投影模型
论文在先前工作的基础上分别使用偏移向量和投影矩阵的方法映射其上位词. 对于某个关系对数据, 模型假设它可以通过一个转换矩阵M和一个偏置向量b完成转换. 对实体 x 的向量进行转换后, 要尽可能接近实体 y 向量
使用单个模型很难保留从各种数据源和域中提取的is-a关系的所有语言规律, 在开放域的数据集下可能表示自然界生物的领域知识与表示金融经济类领域知识的空间表示差异过大. 论文使用分段模型训练技术, 首先使用K-means将is-a关系R*划分为K个组:
(这里的Ck是对应第k个簇的is-a关系对集合)
每个聚类中的is-a关系共享相同的投影和向量偏移, 目的就是学习K个投影矩阵M和偏移向量b. 每个簇𝐶𝑘C_k的目标函数可以表示为:
迭代学习
迭代学习过程是在一个动态扩大的训练集上进行 (t =1,2,···,T[迭代次数]). 主要思想迭代地更新聚类结果和预测模型,以在目标知识源上实现更好的泛化能力。初始化拥有两个数据集:
(i)正样本数据集;
(ii)没有进行标记的词对,这里
参数初始化. 其中的表示种群的质心向量
迭代学习过程总共分为四步:
-step1: 对于数据集U设置一个随机采样系数, 文中设为0.2. 随机采样结果记为. 然后进行聚类操作
并使用映射模型计算和的差值:
当d越小说明和有更大的概率存在关系,设置了阈值通过模型来计算和之间的关系:
其中是使用模型检测的is-a关系对结果, 是一个指示函数, 条件成立输出 1否则输出0, 改过程把所有预测为正样本的数据在添加到中。
-step2: 通过模型检测出的每个属于, 然后使用基于模式的关系选择方法预测标签(𝑖𝑠−𝑎 𝑜𝑟 𝑛𝑜𝑡 𝑖𝑠−𝑎) 并记为.定义 为在t次迭代中提取的is-a关系具有较高的置信度,其表示为:
之后更新两个数据集:
(i)在未标签的数据集U中删除新的is-a关系对
(ii)在正数据集中添加新的is-a关系对
因此, 只有被分段线性投影模型和基于模式的方法都预测为“1”的关系实力可以添加到训练数据集.
-step3: 更新聚类簇的质心
-step4: 对于每个簇使用目标函数来更新模型的参数
以上部分是论文中关键的分段线性投影模型和迭代学习算法的介绍.
基于模式的关系选择
基于模型: 当输入一组词对首先通过模型的方式进行预测,如果满足以下条件中的一个就认为该词对由模型预测的结果是一组is-A关系:
- 在的传递闭包中
-
c(基于模型预测)
基于模式的关系选择:
- 在迭代训练更新过程step2中, 经过模型(并非最终模型)预测出的词对.
- 之后再经过模式预测提取中置信度较高的词对, 并将其添加到.
- 论文收集了与is-a关系相关的更广泛的模式, 并将它们分为三种类型“ is-A”, “ Such-As” 和 “ Co-Hyponym”
y是候选上位词和是出现在语料库中的候选下位词
is-A模i式建立了y到的一对一映射
Such-As模式建立了y到的一对多映射
此为对于Such-As和Co-Hyponym模式可能出现和之间的同义关系
对三个模板进行分析:
分析1. 如果和y符合模板“Is-A”或“Such-As”模式,则存在很大的可能性y是的上位词, 然后使用来统计语料库中和y匹配的次数.
分析2. 如果和符合模板“Such-As”或Co-Hyponym模式, 则和之间可能不存在is-a关系. 同样设统计语料库中和匹配的数量; 同时记为和的匹配数, 其中为除之外的下位词.
论文使用投影模型和中文上下位词模式预测设计了一个算法来确认哪些关系可以被添加到.对于每一个词对.对于每一个词对分别定义了正得分和负得分
正得分由分析1得到:
负得分由分析2得到:
和之间的较高负评分表示以“ Such-As”或“ Co-Hyponym”模式频繁出现和的有力证据. 这意味着和可能是同义词, 表明它们之间存在is-a关系的可能性很小.
如果要进行优化可能会形成双准则优化问题, 因为正得分要最大化而负得分要最小化. 论文进一步将其转化为带有负分数约束的正分数最大化问题:
发现这个问题是预算最大覆盖问题(budgeted maximum coverage problem)的一个特例, 是个NP-hard问题, 需要引入贪心算法来求解: