知识图谱实体对齐3:无监督和自监督的方法

🚀 优质资源分享 🚀

学习路线指引(点击解锁) 知识定位 人群定位
🧡 Python实战微信订餐小程序 🧡 进阶级 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战💛 入门级 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

1 导引

我们在博客《知识图谱实体对齐1:基于平移(translation)嵌入的方法》和博客《知识图谱实体对齐2:基于GNN嵌入的方法》中介绍的都是有监督的知识图谱对齐方法,它们都需要需要已经对齐好的实体做为种子(锚点),但是在实际场景下可能并没有那么多种子给我们使用。为了解决这个问题,有许多无监督/自监督的知识图谱对齐方法被提出。

2 一些常见无监督和自监督方法

2.1 基于GAN的方法

首先我们来看一个基于GAN的方法[1],虽然该方法是用于解决NLP中无监督跨语言词向量对齐操作的,但是我觉得在知识图谱领域也很有借鉴意义。

在最原始的有监督跨语言词向量的对齐任务中,给定已经对齐好的字典(锚点){xi,yi}ni=1\left{x_i, y_i\right}_{i=1}^n,我们需要找到一个线性变换WW来将一个语言的embedding投影到另一个语言的embedding空间中:

W⋆=argminW∈Md®‖WX−Y‖FW^{\star}=\underset{W \in M_d(\mathbb{R})}{\operatorname{argmin}}|W X-Y|_{\mathrm{F}}
其中dd为embeddings维度,X,Y∈Rd×nX, Y\in \mathbb{R}^{d\times n}为字典embeddings矩阵,Md®M_d(\mathbb{R})为d×dd\times d的实矩阵空间。源单词ss的对应翻译单词定义为t=argmaxtcos(Wxs,yt)t=\operatorname{argmax}_t \cos \left(W x_s, y_t\right)。

这个优化问题在对WW施以正交约束的情况下,可通过对YXTYX^T进行奇异值分解来获得解析解:

W⋆=argminW∈Od®‖WX−Y‖F=UVT, with UΣVT=SVD(YXT)W^{\star}=\underset{W \in O_d(\mathbb{R})}{\operatorname{argmin}}|W X-Y|_{\mathrm{F}}=U V^T, \text { with } U \Sigma V^T=\operatorname{SVD}\left(Y X^T\right)
事实上,若两个语言embedding空间的维度不相同,即xi∈Rd1x_i\in\mathbb{R}^{d_1}、yi∈Rd2y_i\in \mathbb{R}^{d_2}时,即W∈Rd2×d1W\in \mathbb{R^{d_2\times d_1}}不可逆时,亦可通过SGD来求数值解[2]。

以上是有对齐的字典的情况,对于没有字典的情况呢?我们可以先用GAN来学到一个WW使得两个单词分布粗略地对齐,然后通过目前的WW找一些高频单词在另一个向量空间中的最近邻,作为锚点,进行优化以获得更好的WW。测试时,再通过最近邻搜索来得到单词在另一个向量空间中的翻译结果。文中的最近邻搜索采用CSLS(cross-domai

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值