论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练。
来源:EMNLP 2020
现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出其优势。但在遍历过程中提供的稀疏奖赏信号往往不足以指导复杂的基于行走的强化学习模型。
另一方面使用传统的符号方法,如规则归纳法,这些方法虽然性能良好,但由于符号表示的局限性而难以推广。
本文提出了规则引导器RuleGuider,一方面利用基于符号的方法生成的高质量规则,另一方面高质量规则为基于行走的代理提供奖励监督。
RuleGuider由两个部分组成,一个是基于符号的方法,称为规则挖掘器rule miner;另一个是基于路径的方法,称为agent。规则挖掘器rule miner首先挖掘逻辑规则,agent在规则的指导下,通过奖励来学习推理路径的概率分布。
代理部分agent分为两个子代理:关系代理和实体代理,这两个代理结构相互作用生成路径。
在每个步骤中,实体代理首先从有效实体中选择一个实体,然后