基于循环神经网络的主题模型

本文提出了一种基于循环神经网络(RNN),特别是LSTM的新型主题模型,旨在解决传统LDA模型中忽视单词顺序的问题。通过结合LSTM,模型能够考虑句子中的序列性,从而增强文档的语义表示。实验结果表明,提出的LDA-LSTM算法在文档建模和分类任务中表现出优于传统LDA和其它模型的性能。
摘要由CSDN通过智能技术生成


摘  要:      原有的主题模型是基于词袋模型的假设,很大程度上忽略单词的前后顺序或其主题连贯性。本文提出一个基于神经网络的话题生成模型,假定每个词的生成取决于句子中的历史单词,通过使用基于递归神经网络(RNN)的框架考虑句子中单词序列性,将句子的分布式表示作为神经网络模型的基本输入,通过将topic model与神经网络结合,利用周围单词的上下文关系来建模。实验结果表明,本文提出的LDA-LSTM算法对于文档语义性表达方面的提升具有重要作用。

关键词:    主题模型; LSTM; RNN; LDA.

A Recurrent NeuralNetwork Based Topic Model


Key words:  topic model; LSTM;RNN; LDA.

 

1      引言

主题模型是建模文本数据的一种有效工具,通过主题模型可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对文档的一个抽象表示。对于概率分布,我们可以通过一些距离公式来计算出两篇文档的语义距离,从而得到它们之间的相似度。隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)和其相关变种[1]为代表的统计主题模型统计模型是当前主题模型的主流。在这些模型中,文档中的任意一个单词标记被认为关联着一个主题,单词标记被认为是从一个隐变量混合模型中产生的,其中隐变量即为每个单词标记关联的主题,每个混合成分代表相应主题下单词分布的概率。即每一个文档Doc都是由多个主题Topic组成,而每一个主题Topic由多个词Word组成。对于每个单词标记,其主题的分配是与文档级别的主题权重相关的。由于建模文档生成过程的有效性和高效性,主题模型己经在非常多的现实应用中发挥了很大的作用,例如情感分析[2],社交网络分析[3]和推荐系统[4]

目前基本上所有的主题模型均采用了词袋(Bag of Words)模型的假设,也即每个文档被认为是单词的无序集合,文档中的每个单词标记的产生过程是互相独立的,单词之间的顺序不会被考虑。同时,通过假设模型顺序信息之间的过渡主题是马尔可夫链的。词袋模型带来了计算上的方便,然而却忽视了:1)文档中单词的序列性;2)文档中一个比较短的语句中每个单词主题的一致性。例如文献[5]中所展示的例子:以下两个英文句子:“the department chair couches offers”和“ thechair department offers couches”,它们有着完全相同的词袋模型表示,却包含完全不同的的语义主题信息。

之前的若干工作均是关于单词的分布式表达。相比而言,句子级别递归主题模型更加关注基于神经网络的句子分布式表达,单词分布式表达只是用来作为表达句子的基本单元,也即神经网络的基本输入,而不再是主要的优化目标。

2    基于神经网络的主题模型

2.1    循环神经网络

为更好理解对于话题检测的计算和方法,主要的定义方法列举如下[6-8]:

定义1 递归神经网络(RNN):RNN是一种依赖于内部记忆来处理任意时序输入的前馈神经网络,设输入的序列集合为,在时间更新步骤时候隐藏层的状态为,产生的输出向量为,其中,T依赖于输入序列的长度,算法的迭代过程如下:


其中,U,W,V分别为输入隐藏层、隐藏层、输出隐藏层加权矩阵,b和c为偏差向量,而tanh(.) 函数为非线性双曲正切函数,用于神经元之间的计算。

定义2 长短记忆模型(LSTM):通过用储存单元来替换常规的激活函数,储存单元则是由一个输入门、输出门和内部状态构成,LSTM对循环单元状态不会在每一步更新,一个记忆单元包括一个记忆细胞ct 和一个时间状态t。

 

定义3  门限循环(GRU):相比较LSTM,GRU训练参数更少,参数表示过程如下:

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值