A Method for Constructing Supervised Time Topic Model Based on Variational Autoencoder(论文解读)

A Method for Constructing Supervised Time Topic Model Based on Variational Autoencoder(论文解读)

Introduction

动机:监督主题模型可以从带有多个标签的文档中学习主题,时间主题模型可以学习在顺序组织的语料库中随时间演变的主题。但是,现实中有些文档具有多个标签和时间戳,需要构造一个受监督的时间主题模型来实现与文档相关的任务。关于监督时间主题模型的研究文献较少。
       针对这个问题该论文作者提出了一种构造有监督时间主题模型的方法。通过分析有监督主题模型和时间主题模型的生成过程,详细介绍了基于变分自编码器的有监督时间主题模型的构建过程,并进行了初步实验。实验结果表明,监督时间主题模型优于目前几种主流主题模型。
       LDA的两个限制:1.首先,在静态主题模型中很难确定主题的数量。为了选择最优的主题数,大多数方法都是通过比较使用主题模型的最小困惑度或最大似然估计值来确定不同的主题数。2.文本信息可以在静态主题模型中交换,而且,静态主题模型假设文本信息彼此之间是无序的。这种简化的假设是不恰当和不现实的。针对LDA的限制,分别提出了监督主题模型和时间主题模型。
       监督主题模型的目标是从带有多个标签的文档中学习主题。最经典的是 labeled LDA,该模型将多个主题与文档中的标签相匹配。主题的数量由文档的元数据(例如标签)决定,主题术语有更好的方式来解释主题。
       时间主题模型的目标是在有序组织的语料库中构建一个随时间演化的主题模型。据我们所知,动态主题模型是第一个在顺序组织的文档语料库中捕获主题演化的主题模型。
       然而,在现实中,有些文档具有多个标签和时间戳,例如,一篇科学论文具有关键字和时间戳。因此这就迫切的需要提出有监督和动态主题模型想结合的主题模型,引出整篇文章的动机。
       该论文提出了一种基于变分自动编码器构造有监督时间主题模型的方法,用ST-TM表示,它被设计用来处理具有多个标签和时间戳的文档。详细介绍了ST-TM的推理和构造过程。为了进行初步评估,我们在实验中比较了ST-TM和最先进的方法。实验结果表明,该方法是有效的。

Related Works

       分别详细地回顾了在监督主题模型和时间主题模型方面的一些有代表性的工作。在分析相关作品局限性的基础上,我们提出了一个监督时间主题模型来解决这些局限性。
Supervised Topic Model:
supervisedLDA:第一个监督主题模型,它添加到与每个文档相关的主题中,并使用变分方法处理棘手的后验期望
discriminative LDA、maximum entropy discrimination LDA这些方法对每个文档只训练一个主题。一个文档只有单个主题是不合适的,因此多个主题的监督主题模型是被提出。
labelled LDA:将多个主题匹配到文档中的标签。
Nonparametric labeled LDA:使用混合随机测度的Dirichlet过程作为层次Dirichlet过程框架的基本分布
DependencyLDA:进一步考虑了在构建监督主题模型时,在训练数据中观察到的标签频率和标签依赖性。
Time Topic Model:
建立了时间主题模型,用于分析大型文档集合中主题的时间演化。据我们所知,动态主题模型是第一个在顺序组织的文档语料库中捕获主题演化的主题模型。为了简化时间主题模型的推理过程,该方法采用变分自编码器构造时间主题模型[8]。为了构建跨语言的工具,提出了一个多语言动态主题模型,该模型可以捕获跨时间发展的跨语言主题,DTM(动态主题模型)假设数据被时间片(例如,被几十年)分割。DTM的图形模型如图2所示。
在论文中作者重点介绍了 labelled LDA模型和DTM主题模型。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值