目录
本章首先介绍预训练知识图谱模型和预训练语言模型的异同点;然后基于商品知识图谱,介绍知识图谱静态预训练模型、知识图谱动态预训练模型的相关研究;最后介绍商品知识图谱的静态和动态预训练技术在业务场景中如何落地,以及相关技术带来的业务效果提升。
7.1 知识预训练概述
知识图谱虽然包含大量有价值的信息,但通常以三元组形式的结构化数据存储,机器无法直接读取和使用。表示学习能将知识图谱中的实体和关系映射到连续空间中用向量表示,并能利用向量的代数运算,很好地建模知识图谱中的结构特征。向量表示被广泛应用在知识图谱相关任务及NLP任务上,且都取得了不错的效果。针对不同的建模任务和目标,相关工作已经提出了不同的知识图谱表示学习方法。随着GPT、BERT、XLNET等预训练语言模型在多项自然语言处理领域任务上刷新了之前的最好效果,预训练受到了各界的广泛关注。预训练在本质上是表示学习的一种,其核心思想是“预训练和微调”方法,具体包括以下步骤:首先利用大量的自然语言数据训练一个语言模型,获取文本中包含的通用知识信息;然后在下游任务微调阶段,针对不同的下游任务,设计相应的目标函数,基于相对较少的监督数据,便可得到不错的效果。
受预训练语言模型的启发,我们将“预训练和微调”的思想应用到了商品知识图谱表示中。商品知识图谱包含亿级的节点信息,同时还包含丰富的结构信息,这对如何高效地建模商品知识图谱带来了挑战。
大规模商品