文献阅读(36)WSDM2020-JNET: Learning User Representations via Joint Network Embedding and Topic Embedding

本文是对《JNET: Learning User Representations via Joint Network Embedding and Topic Embedding》一文的浅显翻译与理解,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习

Title

《JNET: Learning User Representations via Joint Network Embedding and Topic Embedding》

——WSDM2020

Author: Lin Gong

总结

文章对用户的文本信息和交互信息共同建模,以捕捉两类信息间的依赖关系,提出了JNET算法。同时将用户嵌入和主题嵌入建立在同一低维空间中,借助主题嵌入完善模型。

没有看太懂,先记录一下整理的模型结构,有机会再细推。
在这里插入图片描述

1 模型介绍(Model Specification)

在这里插入图片描述
文章认为对每个用户u都有一个对应的文档D,每个文档表示为多个词表x,每个词表中有多个单词w,这些单词从一个大小为V的词典中选出。此外,每个用户u还有一个对应的交互集E。

文章试图用一个对每个用户关联的文本信息和交互信息观察得到的共同分布,来捕捉这两类数据间隐藏的结构依赖性。在此,文章假设用户所产生的所有数据类型都是基于同一个目的,则该分布可以建模为:
在这里插入图片描述在这里插入图片描述
其中,文章假设用户的文本信息和交互信息是相互独立的,则有:
在这里插入图片描述
至此,该分布可依照公式拆分为三类建模任务:对文本信息建模,对交互信息建模,对用户嵌入建模。

1.1 对文本信息建模

文章引入了主题模型,来更好地学习对文本信息的建模。文章将用户嵌入和主题嵌入都构造在同一低维空间中,通过用户嵌入对主题嵌入的映射,可以衡量用户与主题间的亲和度。同时还可以捕捉对同个用户文档中的主题变化,从而对文档构造可预测的分布。
在这里插入图片描述
具体地,文章假设有K个主题,并给出了其嵌入向量的形式,通过主题嵌入,就可以计算出主题和用户之间的亲和度,从而作为每个用户文本文档中主题分布的先验概率。(先验概率是指根据以往经验和分析得到的概率,后验概率是指在得到“结果”的信息后重新修正的概率。)

此外,文章还定义了文档级的主题向量,并给出对应分布,这种分布是包含了用户对单个文档根据其主题偏好进行选取过程中的不确定性。通过将这种文档级的主题向量映射为概率形式,能够得到文档的主题分布:
在这里插入图片描述
对在该文档中的单词,文章采样出主题指标,即:
在这里插入图片描述
在传统主题模型中,每个主题k还对应有一个多项式分布B_k,则对每个单词w而言,能够得到对应的单词分布:
在这里插入图片描述
从而,对文本信息建模得到的概率分布可转化为:
在这里插入图片描述

1.2 对交互信息建模

重点在于理解用户间的密切程度,定义两个用户间的亲和度如下:
在这里插入图片描述
为捕捉不同用户对间亲和度差异的不确定性,文章进一步假设该亲和度是基于以观察到的密切程度为核心的高斯分布的,即:
在这里插入图片描述
在这里插入图片描述
文章用用户的交互集来实现对用户间亲和度的计算,则对交互信息的建模所得的概率分布即如上图所示。

1.3 对用户嵌入建模

文章在对用户和主题嵌入建模时没有引入其他辅助方法,而是直接定义了两者对应取值的等向高斯分布,即:
在这里插入图片描述
在这里插入图片描述
综上所述,就完成了建模方案的生成过程,即:
在这里插入图片描述
在这里插入图片描述
在此,文章做了两个假设:(1)用户和主题嵌入的维度是固定的;(2)文档中的单词是按照主题分布从词典中选取的。

2 变分贝叶斯推理(Variational Bayesian Inference)

通过对给定数据集上的潜变量进行后验推理,可以得到紧凑的用户表征。然而,由于下列潜在变量之间的耦合,后验推理在分析上并不容易,即:
在这里插入图片描述
文章使用平均场变分法来近似这种后验分布,并进一步利用泰勒展开来解决非共轭对数正态前值(non-conjugate logistic-normal priors)所带来的问题。文章对分布进行因式分解,有:
在这里插入图片描述
由于主题向量是在每个文档中推断出来的,因此没有必要为其估计一个完整的协方差矩阵。因此,在其方差分布中,只估计对角线方差参数。

文章的优化目标就在于最小化近似后验分布q和真实后验分布p间的KL散度,即:
在这里插入图片描述
上图中出现了五个近似分布q,文章对每个都进行了估计(就没咋看懂了- -只放图)。

(1)Estimate topic embedding
在这里插入图片描述
(2)Estimate user embedding
在这里插入图片描述
(3)Estimate per-document topic proportion vector
在这里插入图片描述
(4)Estimate user affinity
在这里插入图片描述
(5)Estimate word topic assignment
在这里插入图片描述
文章提到,以上这些变量可以并行计算。
在这里插入图片描述

3 参数估计(Parameter Estimation)

除了上述的五个变量外,近似后验分布中还有五个参数。
在这里插入图片描述
其中第三和第四个参数很容易就能得到,文章给出了另外三个参数的计算方法:
在这里插入图片描述
在这里插入图片描述
此外,还介绍了EM算法的步骤,以及算法整体的复杂度如下。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
网络对齐(Network Alignment)是指在两个或多个网络中找到相对应的节点对,以便可以进行跨网络的数据分析和挖掘。而联合链接预测和网络对齐(Joint Link Prediction and Network Alignment)则是将链接预测和网络对齐两个任务进行统一的建模和求解。 在传统的网络对齐任务中,通常会使用网络节点的属性信息或者拓扑结构信息来进行对齐。而链接预测任务则是根据网络中已有的节点和边的信息,预测网络中可能存在的未知边。联合链接预测和网络对齐的目标是通过同时考虑两个任务,提高网络对齐的准确性和效率。 一种常用的方法是基于嵌入(embedding)的方式,将网络中的节点映射到低维空间中的向量表示。通过学习节点的嵌入向量,可以捕捉到节点之间的相似性和关联性。在联合链接预测和网络对齐任务中,可以使用跨图嵌入(cross-graph embedding)的方法来进行建模。 跨图嵌入方法通过共享节点嵌入向量来实现链接预测和网络对齐之间的信息传递。具体来说,在网络对齐任务中,可以通过最大化对应节点嵌入向量之间的相似性来进行对齐。而在链接预测任务中,可以通过学习节点嵌入向量之间的关系,来预测网络中可能存在的未知边。 一些基于跨图嵌入的方法可以使用图神经网络(Graph Neural Network)进行建模,通过多层网络的节点更新和聚合操作,逐步学习节点的嵌入向量。同时,还可以利用一些损失函数来对节点嵌入向量进行约束,以提高对齐和预测的准确性。 总的来说,联合链接预测和网络对齐通过跨图嵌入的方式,将两个任务进行统一的建模和求解,可以提高网络对齐的准确性和效率。这是一个非常重要的研究方向,在实际应用中具有很大的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值