本文是对《JNET: Learning User Representations via Joint Network Embedding and Topic Embedding》一文的浅显翻译与理解,如有侵权即刻删除。
朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~
Chinese-Reading-Notes-of-Graph-Learning
更多相关文章,请移步:文献阅读总结:网络表示学习/图学习
文章目录
Title
《JNET: Learning User Representations via Joint Network Embedding and Topic Embedding》
——WSDM2020
Author: Lin Gong
总结
文章对用户的文本信息和交互信息共同建模,以捕捉两类信息间的依赖关系,提出了JNET算法。同时将用户嵌入和主题嵌入建立在同一低维空间中,借助主题嵌入完善模型。
没有看太懂,先记录一下整理的模型结构,有机会再细推。
1 模型介绍(Model Specification)
文章认为对每个用户u都有一个对应的文档D,每个文档表示为多个词表x,每个词表中有多个单词w,这些单词从一个大小为V的词典中选出。此外,每个用户u还有一个对应的交互集E。
文章试图用一个对每个用户关联的文本信息和交互信息观察得到的共同分布,来捕捉这两类数据间隐藏的结构依赖性。在此,文章假设用户所产生的所有数据类型都是基于同一个目的,则该分布可以建模为:
其中,文章假设用户的文本信息和交互信息是相互独立的,则有:
至此,该分布可依照公式拆分为三类建模任务:对文本信息建模,对交互信息建模,对用户嵌入建模。
1.1 对文本信息建模
文章引入了主题模型,来更好地学习对文本信息的建模。文章将用户嵌入和主题嵌入都构造在同一低维空间中,通过用户嵌入对主题嵌入的映射,可以衡量用户与主题间的亲和度。同时还可以捕捉对同个用户文档中的主题变化,从而对文档构造可预测的分布。
具体地,文章假设有K个主题,并给出了其嵌入向量的形式,通过主题嵌入,就可以计算出主题和用户之间的亲和度,从而作为每个用户文本文档中主题分布的先验概率。(先验概率是指根据以往经验和分析得到的概率,后验概率是指在得到“结果”的信息后重新修正的概率。)
此外,文章还定义了文档级的主题向量,并给出对应分布,这种分布是包含了用户对单个文档根据其主题偏好进行选取过程中的不确定性。通过将这种文档级的主题向量映射为概率形式,能够得到文档的主题分布:
对在该文档中的单词,文章采样出主题指标,即:
在传统主题模型中,每个主题k还对应有一个多项式分布B_k,则对每个单词w而言,能够得到对应的单词分布:
从而,对文本信息建模得到的概率分布可转化为:
1.2 对交互信息建模
重点在于理解用户间的密切程度,定义两个用户间的亲和度如下:
为捕捉不同用户对间亲和度差异的不确定性,文章进一步假设该亲和度是基于以观察到的密切程度为核心的高斯分布的,即:
文章用用户的交互集来实现对用户间亲和度的计算,则对交互信息的建模所得的概率分布即如上图所示。
1.3 对用户嵌入建模
文章在对用户和主题嵌入建模时没有引入其他辅助方法,而是直接定义了两者对应取值的等向高斯分布,即:
综上所述,就完成了建模方案的生成过程,即:
在此,文章做了两个假设:(1)用户和主题嵌入的维度是固定的;(2)文档中的单词是按照主题分布从词典中选取的。
2 变分贝叶斯推理(Variational Bayesian Inference)
通过对给定数据集上的潜变量进行后验推理,可以得到紧凑的用户表征。然而,由于下列潜在变量之间的耦合,后验推理在分析上并不容易,即:
文章使用平均场变分法来近似这种后验分布,并进一步利用泰勒展开来解决非共轭对数正态前值(non-conjugate logistic-normal priors)所带来的问题。文章对分布进行因式分解,有:
由于主题向量是在每个文档中推断出来的,因此没有必要为其估计一个完整的协方差矩阵。因此,在其方差分布中,只估计对角线方差参数。
文章的优化目标就在于最小化近似后验分布q和真实后验分布p间的KL散度,即:
上图中出现了五个近似分布q,文章对每个都进行了估计(就没咋看懂了- -只放图)。
(1)Estimate topic embedding
(2)Estimate user embedding
(3)Estimate per-document topic proportion vector
(4)Estimate user affinity
(5)Estimate word topic assignment
文章提到,以上这些变量可以并行计算。
3 参数估计(Parameter Estimation)
除了上述的五个变量外,近似后验分布中还有五个参数。
其中第三和第四个参数很容易就能得到,文章给出了另外三个参数的计算方法:
此外,还介绍了EM算法的步骤,以及算法整体的复杂度如下。