阅读文章:Incorporating Knowledge Graph Embeddings into Topic Modeling

阅读文章:Incorporating Knowledge Graph Embeddings into Topic Modeling

这是一篇发表到AAAI-17的Oral的文章:Incorporating Knowledge Graph Embeddings into Topic Modeling

Introduction:

主体模型PLSA或者LDA作为无监督模型,若没有人类领域知识的帮助,得到的主题经常会不具有可解释性。而大部分之前的工作,将领域知识以先验的形式加入到主题模型中,但是没有工作将知识图谱中的三元组形式(头Entity-连接边-尾Entity)的知识加入到LDA模型中。该工作就是知识图谱做embedding表示,以先验知识的形式加入到主题模型中,得到KGE-LDA模型。

KGE-LDA:

  • 基础模型:Conditionally-Independent LDACorrespondence LDA。这两个模型可以处理文章中的词和文章中出现的Entity(即首先要在文章中进行命名实体识别)
  • KGE-LDA将Entity先在知识图谱中embedding成向量,知识图谱embedding的方法是TransE(之前林博在组会上讲过),加入LDA模型中(具体如何加入,一开始说的并不是很清楚,看了概率图模型后,原来不考虑Entity在文章中的出现次数,使用embedding向量代替)
  • 使用von Mises-Fisher(vMF)模型建模embedding向量(原因是:embedding后的向量一般L2-norm为1,计算这种方向性的向量间的距离,使用cosine距离比较好。。这跟vMF有什么关系?)

    这个是vMF的概率密度函数,神奇的是该函数的共轭先验也是它自己
    (跟作者替换掉的multivariate Gaussian distribution具有一样的性质,导致inference方便)
    这里写图片描述

  • 具体概率图模型:(KGE-LDA(a)是在CI-LDA基础上的改进,KGE-LDA(b)是在Corr-LDA基础上的改进)

这里写图片描述

  • 模型生成过程:

    这里写图片描述
    这里写图片描述

  • Inference和参数学习:

    还是使用Gibbs采样(满足分布和先验共轭),对于主题分布 zdn θdk , ϕkwdn 等参数的推导和原始的CI-LDA差不多。
    这里写图片描述
    这里写图片描述

    而对于 zdm 的推导,文章中说的参考的Von mises-fisher clustering models-ICML2014
    这里写图片描述

实验:

三个数据集:
  • 18846文档,20Entity(11314训练,7532测试)
  • 1740文档
  • 7400文档,23Entity(3357训练,4043测试)

    (知识图谱使用的WordNet的语义关联)

BaseLine方法:
实验验证-Topic Coherence:
  • 定量分析
    通常主题模型的验证都是perplexity,文章说在测试集上的perplexity不能反应主题的可解释性,因此使用point-wise mutual information(PMI)
    这里写图片描述

    实验的结果:
    这里写图片描述

  • 定性分析
    就是通过列举topic中词分布的几个例子,说明KGE-LDA可解释性高
实验验证-分类效果

每个文章使用 θd 作为特征,放到linear-SVM分类器中,结果如下(准确率不是很高。。):
这里写图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值