Vector-space models: retrofitting 概述
•到目前为止,我们词向量中的所有信息都仅仅来自文本中的共现模式。这些信息通常很容易获得——尽管人们确实需要大量的文本——而且令人吃惊的是,由此产生的表示形式是多么丰富。
•尽管如此,很明显,我们会错过一些重要的信息。例如,学习能够支持所有小狗都是狗(小狗属狗)这一推论的表示可能很简单,但学习狗属哺乳动物可能很困难,因为文本中使用非常广泛的分类术语(如哺乳动物)的方式很不寻常。
•接下来的问题是:我们如何将结构化信息(标签)纳入我们的表述?如果我们能做到这一点,那么我们可能会得到两方面的好处:使用共现数据的方便性和使用标记数据的优化。
•本文我们将看到一种强大的方法:对Faruqui 2016等人的模型进行改造。在这个模型中,学习(或下载)知识图中节点的分布式表示,然后更新这些表示,使连接的节点更接近彼此。
•这是一个非常丰富的想法;本文回顾了一些最近的扩展,新的扩展可能会一直出现。
The retrofitting model
对于大小为m×n的VSM Q^和一组边E(Q^中行的索引对),改造目标是根据以下函数获得新的VSM Q(m×n):
<