阅读文章：Incorporating Knowledge Graph Embeddings into Topic Modeling

最新推荐文章于 2024-03-28 09:42:59 发布

smileyk

最新推荐文章于 2024-03-28 09:42:59 发布

阅读量1.1k

点赞数 1

分类专栏：文章阅读文章标签：领域知识主体模型 LDA 知识图谱

本文链接：https://blog.csdn.net/smileyk/article/details/78221342

版权

文章阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

阅读文章：Incorporating Knowledge Graph Embeddings into Topic Modeling

这是一篇发表到AAAI-17的Oral的文章：Incorporating Knowledge Graph Embeddings into Topic Modeling

Introduction：

主体模型PLSA或者LDA作为无监督模型，若没有人类领域知识的帮助，得到的主题经常会不具有可解释性。而大部分之前的工作，将领域知识以先验的形式加入到主题模型中，但是没有工作将知识图谱中的三元组形式（头Entity-连接边-尾Entity）的知识加入到LDA模型中。该工作就是知识图谱做embedding表示，以先验知识的形式加入到主题模型中，得到KGE-LDA模型。

KGE-LDA：

基础模型：Conditionally-Independent LDA和Correspondence LDA。这两个模型可以处理文章中的词和文章中出现的Entity（即首先要在文章中进行命名实体识别）
KGE-LDA将Entity先在知识图谱中embedding成向量，知识图谱embedding的方法是TransE（之前林博在组会上讲过），加入LDA模型中（具体如何加入，一开始说的并不是很清楚，看了概率图模型后，原来不考虑Entity在文章中的出现次数，使用embedding向量代替）
使用von Mises-Fisher(vMF)模型建模embedding向量（原因是：embedding后的向量一般L2-norm为1，计算这种方向性的向量间的距离，使用cosine距离比较好。。这跟vMF有什么关系？）

这个是vMF的概率密度函数，神奇的是该函数的共轭先验也是它自己
（跟作者替换掉的multivariate Gaussian distribution具有一样的性质，导致inference方便）
具体概率图模型：（KGE-LDA(a)是在CI-LDA基础上的改进，KGE-LDA(b)是在Corr-LDA基础上的改进）

这里写图片描述

模型生成过程：
Inference和参数学习：

还是使用Gibbs采样（满足分布和先验共轭），对于主题分布 $z_{dn}$ 和 $\theta_{dk}$ , $\phi_{kw_{dn}}$ 等参数的推导和原始的CI-LDA差不多。

而对于 $z'_{dm}$ 的推导，文章中说的参考的Von mises-fisher clustering models-ICML2014

实验：

三个数据集：

18846文档，20Entity（11314训练，7532测试）
1740文档
7400文档，23Entity（3357训练，4043测试）

(知识图谱使用的WordNet的语义关联)

BaseLine方法：

实验验证-Topic Coherence：

定量分析
通常主题模型的验证都是perplexity，文章说在测试集上的perplexity不能反应主题的可解释性，因此使用point-wise mutual information（PMI）

实验的结果：
定性分析
就是通过列举topic中词分布的几个例子，说明KGE-LDA可解释性高

实验验证-分类效果

每个文章使用 $\theta_d$ 作为特征，放到linear-SVM分类器中，结果如下（准确率不是很高。。）：
这里写图片描述

smileyk

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
阅读文章：Incorporating Knowledge Graph Embeddings into Topic Modeling

阅读文章：Incorporating Knowledge Graph Embeddings into Topic Modeling这是一篇发表到AAAI-17的Oral的文章：Incorporating Knowledge Graph Embeddings into Topic ModelingIntroduction：主体模型PLSA或者LDA作为无监督模型，若没有人类领域知识的帮助，得到的主题经
复制链接

扫一扫