Modeling Relation Paths for Representation Learning of Knowledge Bases
Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, Song Liu.
Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.
- Abstract
多步长的关系也包含丰富的推理模式。
- Background
TransE、Trans H、TransR都是研究两个实体的之间联系。
关系路径的挑战:
- 不是所有的关系都是可靠的;
- 语义关系是一组操作。
- Algorithm
打分函数:
前一项是由头尾实体的直接关联的分数,后者是通过路径得出的分数。P大写表示路径集合,p小写表示某路径。R(p|h,t)表示路径p下的置信值,Z为所有置信值的单位化。
置信度:
对于路径信度的度量,使用路径约束资源分配(path-constraint resource allocation,PCRA)的算法,该方法最初被用于个性化推荐。主要思想是:在图中,某种资源从头实体,通过路径 p 流向尾实体,用头实体通过该路径最终流到尾实体的资源量表示该路径的信度。
n为关系ri下的尾实体,m为ri下的头实体。因为在知识库中,会有一对多、多对多的关系。则头实体会在一个关系下,连接多个尾实体。公式中的绝对值分母代表尾实体个数。
则公示理解为,头实体的置信度等于他的各个在ri关系下的尾实体的置信度的平均值。求平均值的原因是在于,文中将最开始的头实体置信度设为1。
其中,
语义表示:
由于r约等于t-h,则路径下的打分函数可改写为:
损失函数:
细节优化:
- SGD 随机梯度
- 逆关系的使用
路径选择的限制:
不可能枚举所有的间接关系,在实验中选择最长为3的关系路径,同时保证置信度大于0.01
- Experiment
- link prediction
打分函数改变:
实体预测:
新的TransE考虑逆关系
- PTansE效果更好
- 加法操作最好
- 在对比2、3两步长的中,发现长度并不是重要
- relation prediction
在这里插入图片描述
TransE + path,虽然transe的关系是直接关系,没有关系步长。但是path限制不仅仅有步,还需要满足关系的置信度大于0.01
- relation extraction
这里实验的TransE不使用逆关系和path的原因是:
在知识图谱补全中,大量的关系是存在的,但是对于文本的关系抽取上,并非这样。
关系推理 例子
- Conclusion
提出关系的语义合组合操作、考虑直接关系和非直接关系、关系的置信度。同时引入逆关系、关系路径限制来优化模型。各个实验结果比TransE好。
未来:
- 只能处理两个实体之间的直接或者间接关系,不能处理两个类别之间关系;
- 将PTransE模型的思路扩展到其他模型,如TransH,TransR。