《Predicting hypernym–hyponym relations for Chinese taxonomy learning》知识图谱阅读笔记(一)

目录

摘要

一、论文方法概述

二、初始化中文分类

三、论文整体框架

四、模型训练

分段线性投影模型

迭代学习

基于模式的关系选择


摘要

上下位词关系(is-a)是分类法, 对象层次结构和知识图的重要组成部分. 尽管英语中的"is-A关系"提取研究很多, 但由于语言表达的灵活性以及中文与英语之间的显着差异, 从中文知识源中准确识别这种关系仍然是一个挑战. 论文引入了一个弱监督框架来从用户生成的类别中提取中文is-a关系. 它采用在从Wikipedia建立的现有中文分类法上训练的分段线性投影模型迭代学习算法来逐步更新模型参数. 提出了一种基于模式的关系选择方法, 以防止使用双准则优化的学习过程中的“语义漂移”.

一、论文方法概述

论文研究的主要工作: 预测汉语分类学习中的上下位词关系. 上下位词关系(简称: is-a关系), 上下位词关系(简称: is-a关系)是分类法.

论文的任务: 给定一个实体和其类别集, 旨在预测每个类别名称是否是实体的上位词.

考虑从用户生成的类别中获取关系的问题. 之所以使用用户生成的类别作为知识源, 是因为这些知识的类别、概念和主题是人们通过在线的Wikipedia和垂直网站人工添加的. 因为它们为实体提供了高质量的候选上位词关系.

论文采用了以前基于[Wikipedia]建立的现有中文分类法[User generated content oriented Chinese taxonomy construction. ]作为最初的知识来源。在这项工作中, 论文将中文维基百科作为知识来源, 开发挖掘方法以从维基百科中提取实体、类和is-a关系, 并使用自下而上的策略来构建整个分类法. 已构建了一个知识图谱的基本框架称为 Taxonomy.

二、初始化中文分类

论文在已构建得知识图谱Taxonomy中采样出部分is-a 关系数据, 记作R(论文中指出每个is-a关系词对都存在传递闭包关系). 随后从中取出传递闭包的关系集合, 记作R^{*}. 可以理解在这个集合中的关系数据为可信度较高的数据. R^{*}相当于已经确定得正样本集.

$$R^{*}=\bigcup_{i=0}^{\infty} R^{*}$$\\R^{i+1}=R\circ R^{(i)}

 

假设从外部获取的实体集合E, 集合中每个元素的父子集记为Cat(x), 未标记的词对可以表示为:

需要设计一个基于R^{*}的学习算法F来预测xy之间是否存在is-a关系


初始实验: 论文介绍了现有的使用偏移量来计算两个实体间关系的方法, v(x)表示为单词x的嵌入向量,然后计算了v(x)-v(y)的偏移量大小,这里的yx的上位词. 

但使用单个模型很难保留从各种数据源和域中提取的is-a关系的所有语言规律. 此外, 从一个知识来源学习的模型不一定能有效地从另一个来源提取is-a关系. 单个映射模型并不能很好地学到这个空间的映射关系. 比如, 在开放域的数据集下, 可能表示自然界生物的领域知识与表示金融经济类领域知识的空间表示差异过大.

三、论文整体框架

在具有超过10亿个单词的中文文本语料库上训练Skip-gram模型, 以获得单词嵌入. 在Skip-gram模型中, 每个单词x都投影到其低维嵌入向量v(x). 之后对数线性分类器将词向量作为输入并预测上下文单词, 在形式上给定单词x其上下文词为u的概率定义为:

(其中V是整个文本语料库的词汇集合)

四、模型训练

分段线性投影模型

论文在先前工作的基础上分别使用偏移向量和投影矩阵的方法映射其上位词. 对于某个关系对数据(x_{i}, y_{i}), 模型假设它可以通过一个转换矩阵M和一个偏置向量b完成转换. 对实体 x 的向量进行转换后, 要尽可能接近实体 y 向量

使用单个模型很难保留从各种数据源和域中提取的is-a关系的所有语言规律, 在开放域的数据集下可能表示自然界生物的领域知识与表示金融经济类领域知识的空间表示差异过大. 论文使用分段模型训练技术, 首先使用K-meansis-a关系R*划分为K个组:

(这里的Ck是对应第k个簇的is-a关系对集合)

每个聚类中的is-a关系共享相同的投影M_{k}和向量偏移b_{k}, 目的就是学习K个投影矩阵M和偏移向量b. 每个簇𝐶𝑘C_k的目标函数可以表示为:


迭代学习

迭代学习过程是在一个动态扩大的训练集上进行R^{(t)} (t =1,2,···,T[迭代次数]). 主要思想迭代地更新聚类结果和预测模型,以在目标知识源上实现更好的泛化能力。初始化拥有两个数据集:

(i)正样本数据集R^{(1)}=R^*;

(ii)没有进行标记的词对U=\left \{ (x_{i}, y_{i}) \right \},这里\left | U \right |\gg \left | R^{(1)} \right |

参数初始化. 其中的{c_{k}}^{(1)}表示种群的质心向量

迭代学习过程总共分为四步:

-step1: 对于数据集U设置一个随机采样系数\delta \cdot \left | U \right |\delta文中设为0.2.  随机采样结果记为(x_i,y_i)\in U^{(t)}. 然后进行聚类操作

并使用映射模型计算x_iy_i的差值:

d越小说明x_iy_i有更大的概率存在关系,设置了阈值\epsilon通过模型来计算x_iy_i之间的关系:

其中f_{M}^{(i)}是使用模型检测的is-a关系对结果, I(\cdot )是一个指示函数, 条件成立输出 1否则输出0, 改过程把所有预测为正样本的数据在添加到中U_{-}^{(t)}

-step2: 通过模型检测出的每个\left ( x_{i},y_{i} \right )属于U_{-}^{(t)}, 然后使用基于模式的关系选择方法预测标签(𝑖𝑠𝑎 𝑜𝑟 𝑛𝑜𝑡 𝑖𝑠𝑎并记为f_{p}^{t}(x_{i},y_{i}).定义 U_{+}^{(t)}为在t次迭代中提取的is-a关系具有较高的置信度,其表示为:

之后更新两个数据集:

(i)在未标签的数据集U中删除新的is-a关系对U_{+}^{(t)}

(ii)在正数据集中添加新的is-a关系对R^{(t+1)}=R^{(t)}\cup U_{+}^{(t)}

因此, 只有被分段线性投影模型和基于模式的方法都预测为“1”的关系实力可以添加到训练数据集. 

-step3: 更新聚类簇的质心

-step4: 对于每个簇C_{k}^{(t+1)}使用目标函数来更新模型的参数

以上部分是论文中关键的分段线性投影模型迭代学习算法的介绍.


基于模式的关系选择

基于模型: 当输入一组词对(x_{i},y_{i})首先通过模型的方式进行预测,如果满足以下条件中的一个就认为该词对由模型预测的结果是一组is-A关系:

  • (x_{i},y_{i})R^{(T+1)}的传递闭包中
  • c(基于模型预测)

基于模式的关系选择:

  • 在迭代训练更新过程step2, 经过模型(并非最终模型)预测出的词对(x_{i},y_{i})\in U_{-}^{(t)}.
  • 之后再经过模式预测提取U_{-}^{(t)}中置信度较高的词对(x_{i},y_{i})\in U_{+}^{(t)}, 并将其添加到R^{(T)}.
  • 论文收集了与is-a关系相关的更广泛的模式, 并将它们分为三种类型“ is-A”, Such-As” 和 “ Co-Hyponym”

y是候选上位词x_{i}y_{i}是出现在语料库中的候选下位词

is-A模i式建立了yx_{i}的一对一映射

Such-As模式建立了y到x_{i}的一对多映射

此为对于Such-AsCo-Hyponym模式可能出现x_{i}x_{j}之间的同义关系

对三个模板进行分析:

分析1. 如果x_{i}和y符合模板“Is-A”或“Such-As”模式,则存在很大的可能性yx_{i}的上位词, 然后使用n_{1}(x_{i},y_{i})来统计语料库中x_{i}和y匹配的次数.

分析2. 如果x_{i}x_{j}符合模板“Such-As”Co-Hyponym模式, x_{i}x_{j}之间可能不存在is-a关系. 同样设n_{2}(x_{i},x_{j})统计语料库中x_{i}x_{j}匹配的数量; 同时记n_{2}(x_{i})x_{i}x^{*}的匹配数, 其中x^{*}为除x_{i}之外的下位词.

论文使用投影模型和中文上下位词模式预测设计了一个算法来确认U_{-}^{(t)}哪些关系可以被添加到U_{+}^{(t)}.对于每一个词对(x_{i},y_{i})\in U_{+}^{(t)}.对于每一个词对(x_{i},y_{i})\in U_{-}^{(t)}分别定义了PS^{(t)}(x_{i},y_{i})正得分和负得分NS^{(t)}(x_{i},y_{i})

正得分由分析1得到:

负得分由分析2得到:

x_{i}y_{i}之间的较高负评分表示以“ Such-As”或“ Co-Hyponym”模式频繁出现x_{i}y_{i}的有力证据. 这意味着x_{i}y_{i}可能是同义词, 表明它们之间存在is-a关系的可能性很小.

如果要进行优化可能会形成双准则优化问题, 因为正得分要最大化而负得分要最小化. 论文进一步将其转化为带有负分数约束的正分数最大化问题:

发现这个问题是预算最大覆盖问题(budgeted maximum coverage problem)的一个特例, 是个NP-hard问题, 需要引入贪心算法来求解:

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值