知识图谱实体对齐3：无监督和自监督的方法

u012804784

于 2022-10-22 01:05:38 发布

阅读量660

点赞数

分类专栏： android 文章标签：知识图谱人工智能计算机

本文链接：https://blog.csdn.net/u012804784/article/details/127456482

版权

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

1 导引

我们在博客《知识图谱实体对齐1：基于平移(translation)嵌入的方法》和博客《知识图谱实体对齐2：基于GNN嵌入的方法》中介绍的都是有监督的知识图谱对齐方法，它们都需要需要已经对齐好的实体做为种子（锚点），但是在实际场景下可能并没有那么多种子给我们使用。为了解决这个问题，有许多无监督/自监督的知识图谱对齐方法被提出。

2 一些常见无监督和自监督方法

2.1 基于GAN的方法

首先我们来看一个基于GAN的方法[1]，虽然该方法是用于解决NLP中无监督跨语言词向量对齐操作的，但是我觉得在知识图谱领域也很有借鉴意义。

在最原始的有监督跨语言词向量的对齐任务中，给定已经对齐好的字典（锚点）{xi,yi}ni=1\left{x_i, y_i\right}_{i=1}^n，我们需要找到一个线性变换WW来将一个语言的embedding投影到另一个语言的embedding空间中：

W⋆=argminW∈Md®‖WX−Y‖FW^{\star}=\underset{W \in M_d(\mathbb{R})}{\operatorname{argmin}}|W X-Y|_{\mathrm{F}}
其中dd为embeddings维度，X,Y∈Rd×nX, Y\in \mathbb{R}^{d\times n}为字典embeddings矩阵，Md®M_d(\mathbb{R})为d×dd\times d的实矩阵空间。源单词ss的对应翻译单词定义为t=argmaxtcos(Wxs,yt)t=\operatorname{argmax}_t \cos \left(W x_s, y_t\right)。

这个优化问题在对WW施以正交约束的情况下，可通过对YXTYX^T进行奇异值分解来获得解析解：

W⋆=argminW∈Od®‖WX−Y‖F=UVT, with UΣVT=SVD(YXT)W^{\star}=\underset{W \in O_d(\mathbb{R})}{\operatorname{argmin}}|W X-Y|_{\mathrm{F}}=U V^T, \text { with } U \Sigma V^T=\operatorname{SVD}\left(Y X^T\right)
事实上，若两个语言embedding空间的维度不相同，即xi∈Rd1x_i\in\mathbb{R}^{d_1}、yi∈Rd2y_i\in \mathbb{R}^{d_2}时，即W∈Rd2×d1W\in \mathbb{R^{d_2\times d_1}}不可逆时，亦可通过SGD来求数值解[2]。

以上是有对齐的字典的情况，对于没有字典的情况呢？我们可以先用GAN来学到一个WW使得两个单词分布粗略地对齐，然后通过目前的WW找一些高频单词在另一个向量空间中的最近邻，作为锚点，进行优化以获得更好的WW。测试时，再通过最近邻搜索来得到单词在另一个向量空间中的翻译结果。文中的最近邻搜索采用CSLS（cross-domai

最低0.47元/天解锁文章

u012804784

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
知识图谱实体对齐3：无监督和自监督的方法

事实上，若两个语言embedding空间的维度不相同，即xi∈Rd1x_i\in\mathbb{R}^{d_1}、yi∈Rd2y_i\in \mathbb{R}^{d_2}时，即W∈Rd2×d1W\in \mathbb{R^{d_2\times d_1}}不可逆时，亦可通过SGD来求数值解[2]。
复制链接

扫一扫