2021-05-24

最新推荐文章于 2024-09-09 16:08:58 发布

ParisCutie

最新推荐文章于 2024-09-09 16:08:58 发布

阅读量397

点赞数

本文链接：https://blog.csdn.net/ParisCutie/article/details/117227594

版权

KG-BERT通过微调预训练的Bert模型，利用实体和关系的上下文描述进行知识图谱任务，如三元组分类和链接预测。KEPLER则尝试统一语言模型和知识图谱表示，通过实体和关系描述的编码，实现更丰富的文本和知识表示。两种方法都强调了描述在捕获语义和关系中的作用，但计算成本和效率是挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- Kg-bert
- KEPLER

Kg-bert

为了通过丰富的语言模型充分利用上下文的表征，对知识图谱完成的预训练Bert进行了微调，将实体和关系表示为它们的名称或者描述，然后再将名称/描述序列作为bert模型输入的句子，进行fine-tuning。将两个实体（实体名称/实体描述）或者三元组（h,r,t）作为bert的输入序列。
在这里插入图片描述
KG-Bert（a）:将实体和关系的名称/描述直接放入bert，并用 [CLS] 处的输出C来预测三元组是否正确。
例如, 三元组（SteveJobs,founded,AppleInc）中的头实体SteveJobs 可以表示为它的描述Steven Paul Jobs was an American business magnate, entrepreneur and investor 或者它的名字Steve Jobs, 而尾实体 AppleInc可以表示为Apple Inc. is an American multinational technology company headquartered in Cupertino, California或者它的名称Apple Inc.
在不同的实体和关系之间用 [SEP] 分隔，每个Token的描述分别为Token本身的embedding和Position Embedding，Segment Embeding组成，头实体和尾实体都使用 $e_{A}$ 作为Segement Embeding，而关系使用 $e_{B}$
最后的输出C用来计算三元组的分类，对于三元组（h,r,t）其打分函数为：
$s_{\tau}=f(h,r,t)=sigmoid(CW^{T})$
其中损失函数为:
$L=-\sum_{\tau \in D+\bigcup D-}(y_{\tau}log(s_{\tau0}+(1-y_{\tau})log(s_{\tau1})))$
其中 $y_{\tau}$ 是三元组是正例还是负例的标签 $\in{0,1}$ ,D-表示负例，通过仅替换
头实体和尾实体得来的。

在这里插入图片描述
在KG-Bert(b)中，只使用两个实体h,t的描述来预测它们之间的关系r，并且这种结构在预测关系时要优于KG-Bert(a)。KG-Bert(b)采用**[CLS]**处的输出C接一个分类矩阵来预测两个实体之间的关系。
$s_{\tau}^{'}=f(h,r,t)=softmax(CW^{T})$
损失函数采用多分类任务
$L^{'}=-\sum_{\tau \in D+} \sum_{i=1}^{R} y_{\tau i}^{'}log(s_{\tau i}^{'})$
其中 $y_{\tau i}^{'}$ 是关系的独热向量

Triple Classification
在这里插入图片描述
三元组分类的目的是判断一个给定的三元组(h,r,t)是否正确，KG-Bert(a)可以充分利用大型外部文本数据中丰富的语言模式来克服知识图谱的稀疏性。
而KG-Bert(a)表现良好的主要原因是:

输入含有实体和关系的单词序列（使用了文本描述）
三元组分类任务和Bert训练时的NSP任务类似，可以捕捉到文本中两个句子之间的关系
Token Vector结合了上下文，不同三元组中描述往往不同，因此不同三元组中相同元素则可以获得不同的表示
Self-attention可以发现三元事实中最重要的词

Link Prediction
在这里插入图片描述
KG-Bert(a)在MR上取得了很好的效果，但是Hit@10表现就不太好，KG-Bert虽然能避免实体和实体相关性很强的相似三元组，但没对三元组本身进行明确的建模，因此不好给定准确的排名。
link prediction预测评估需要用几乎所有的实体替换头实体或尾实体，而且所有被替换后的三元组序列都需送入模型，所以模型的评估是非常耗时的。

Relation Prediction
在这里插入图片描述
KG-类似与BERT微调中的句对分类，也可以从Bert预训练中受益。
Attention Visualization
从KG-Bert(a)取出第11层，以 (twenty dollar bill NN 1, hypernym, note NN 6) 为例子，头实体描述为 a United sates bill worth 20 dollars , 关系名 hypernym ,尾实体描述 a piece of paper money 作为序列。
在这里插入图片描述
$p a p e r$ 和 $m o n e y$ 具有很高的权重，同时模式很好学到了 $[s e p]$ 的作用
在KG-Bert(b)中，以三元组 *(20th century ，/time/event/includes event, World War II)*为例

b学到了类似a的模式，不过每个头的注意力更为分散，由于b的目标是对实体进行关系预测，所以对 $[C L S]$ 分配了更高的权重
Summary
KG-Bert现在最大的问题是计算成本太高，尤其是链接预测，轮流替换实体描述花费了大量的时间，不过总的来说，输入数据的方式很简单，将知识图谱的任务转换为序列分类问题，同时可以利用文本中的丰富语义信息，并突出显示与三元组相关的最重要的词。

KEPLER

预训练语言模型不能从文本中获得常识，而KGE能获得知识图谱中实体和关系的有效表示，却不能捕捉上下文。KEPLER是一个KGE和PLM表示统一的模型，它包含了PLM和KE的联合优化目标。
在这里插入图片描述
Encoder
采用Transformer Encoder将 $N$ 个序列作为输入，经过 $L$ 层Transformer Encoder堆叠，得到 $d$ 维的上下文表示 $H_i$ , $1 \leq i \leq L$ ,每层编码器 $E_i$ 由多头自注意力和前馈神经网络组成,每层Encoder表示:
$H_{i}=E_i(H_{i-1})$
对于任意文本，将经过编码后的 [CLS] 处 $E_{CLS}]$ 作为文本的表示

Knowledge Embedding
KEPLER将实体和关系映射到 $d$ 维的空间中，并使用打分函数训练。
它不在存储Embedding，而是将实体结合它们本身的描述编码作为Embedding，本文设计了三种有效的方式

实体描述作为嵌入
实体和关系描述作为嵌入
关系为条件的实体嵌入

Entity Descriptions Embeddings
对于三元组(h,r,t)只使用三元组就是对头实体 $h$ 的描述 $text_h$ 和尾实体 $t$ 的描述 $text_t$ 分别进行编码，然后再将关系 $r$ 单独嵌入：
$h=E_{[CLS]}(text_h)$
$t=E_{[CLS]}(text_t)$
$r=T_r$
其中 $T_r$ 代表关系 $r$ 的Embedding权重。

Entity and Relation Descriptions
$\hat{r}=E_{<s>}(text_r)$
将关系的描述进行编码，用 $\hat{r}$ 替换 $r$ 。

Entity Embedding Conditioned On Relations
直觉上，一个实体的语义可能有多个方面，不同的关系关注于不同的方面，以这种方式，使用 $r$ 为条件的实体嵌入
$h_r=E_{<s>}(text_{h,r})$

$text_{h,r}$ 是拼接了 $h$ 和 $r$ ，同样在开头加上 $< s >$ ,末尾加上 $< / s >$ ,用 $h_r$ 替代 $h$ .

Knowledge Embedding Loss and Score Function
KE损失函数如下:
$L_{KE}=-log \sigma(\gamma -d_r(h,t))-\sum^n_{i=1} \frac{1}{n}log \sigma(d_r(h^{'}_i,t_i^{'})-r)$
其中 $h^{'}_i,r,t_i^{'})$ 是负采样得到的样本 $\sigma$ 是sigmoid激活函数， $\gamma$ 是间隔, $d_r$ 是打分函数,沿用TransE的打分函数:
$d_r(h,t)=||h+r-t||_p$