sDTM:文本分析的监督贝叶斯深度主题模型

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

这里主要介绍一篇发表在管理学领域顶刊Information Systems Research的论文。这篇研究中,作者在深度学习的基础上开发了一种监督主题建模方法,对现有的主题建模方法如LDA,GSM等方法进行扩展。

首先让我们介绍一下主题模型,主题建模(Topic Modeling)是自然语言处理和文本挖掘领域中的一种技术,用于从大量文档集合中自动识别出潜在的主题(如将1000篇新闻分类到体育、科技等主题下)。主题建模能够帮助组织、理解和总结大规模的文本数据,使得用户能够把握文档集合中的主要内容和结构。

传统的主题模型是通过学习以下两个分布函数实现的:

  1. p ( t ∣ d ) p(t|d) p(td): 给定文档下主题的分布;
  2. p ( w ∣ t ) p(w|t) p(wt):给定主题的前提下单词的分布。

本研究的核心思想是在传统主题模型的基础上引入监督信号。具体如下图:
在这里插入图片描述
传统的主题建模方法主要采用两种路径解决问题: p 1 p_1 p1 p 2 p_2 p2。其中, p 1 p_1 p1路径基于LDA方法,得到文档到主题的分布及主题到单词的分布映射关系,再基于这些映射关系进行计量学研究或深度学习研究。

本研究提出的方法可以直接将深度学习的分类标签( Z Z Z)作为信号,用于端到端的训练,即路径 p 4 p_4 p4。这意味着在现有的深度学习框架中引入主题模型;从另一个角度来看,这也是利用分类标签 Z Z Z来指导主题模型进行更精准的主题提取。

这样的方法不仅提高了主题模型的相关性和精确性,还增强了模型在特定任务上的应用潜力,实现了从数据到洞察的更高效转化。

下面我们直接对方法进行介绍。


一、数学推理

1.1 简单的变分主题模型回顾

在这个研究中,作者将一个文档 d d d进行标注,文档包含 N d N_d Nd个单词, { x 1 , x 2 , . . . x N d } \{ x_1, x_2, ... x_{N_d} \} { x1,x2,...xNd}

向量 d \mathbf{d} d是文档 d d d的词袋向量表示,其中维度是词汇表大小 ∣ V t o p i c ∣ |V_{topic}| Vtopic。其中, ∣ V t o p i c ∣ |V_{topic}| Vtopic指的是所有文档中所有单词的个数。这个向量的第 i i i个维度的值是第 i i i个维度对应的单词在文档 d d d中出现的次数。

我们使用潜在变量 t ∈ R K t∈\mathbb{R}^K tRK表示文档 d d d的主题比例,其中 K K K为潜在主题的个数。

主题变量 z n z_n zn被分配给单词标记 x n x_n xn。神经主题模型假设先验分布来指导生成过程,并使用VAE来近似潜在变量t。用神经网络参数化多项主题分布可以消除预定义分布来指导生成过程的需要。VAE的推理网络(编码器)对输入文本进行变换,令其成为一个潜在的表示。我们使用两个多层感知器(mlp)计算变分逼近,该感知器将文档作为输入,然后输出高斯分布的均值和方差。

数学表达会更加的清晰。在给定文档 d d d的前提下,计算对应于这个文档的均值和方差,如下:
μ ϕ ( d ) = g 1 ( d ) log ⁡ Σ ϕ ( d ) = g 2 ( d ) \begin{gathered} {\mu _\phi }({\mathbf{d}}) = {g_1}({\mathbf{d}}) \\\\ \log {\Sigma _\phi }({\mathbf{d}}) = {g_2}({\mathbf{d}}) \\ \end{gathered} μϕ(d)=g1(d)logΣϕ(d)=g2(d)

g 1 g_1 g1 g 2 g_2 g2是两个前向传播向量,其参数是 Φ \Phi Φ

有了均值和方差后我们调用前面提到的重参数技巧,得到主题分布 t t t

q Φ ( t ∣ d ) = N ( μ ϕ ( d ) , Σ ϕ ( d ) 2 ) q Φ ( t ∣ d ) = μ ϕ ( d ) + Σ ϕ ( d ) × ϵ , ϵ ∼ N ( 0 , 1 ) \begin{gathered} {q_\Phi }(t|{\mathbf{d}}) = \mathcal{N}({\mu _\phi }({\mathbf{d}}),{\Sigma _\phi }{({\mathbf{d}})^2}) \\ {q_\Phi }(t|{\mathbf{d}}) = {\mu _\phi }({\mathbf{d}}) + {\Sigma _\phi }({\mathbf{d}}) \times \epsilon,\quad \epsilon\sim \mathcal{N}(0,1) \end{gathered} qΦ(td)=N(μϕ(d),Σϕ(d)2)qΦ(td)=μϕ(d)+Σϕ(d)×ϵ,ϵN(0,1)

生成网络(解码器)将潜在表示重建回原始输入。取生成的主题-文档分布 t t t生成文档 d d d z n ∼ M u l t i ( t ) , x n ∼ M u l t i ( β z n ) z_n \sim Multi(t), x_n \sim Multi(βzn) znMulti(t)xnMulti(βzn),其中 b b b为单词上的主题分布,即 β i j ∈ p ( w j ∣ t i ) β_{ij}∈p(w_j|t_i) βijp(wjti) w j w_j wj为词汇 V t o p i c V_{topic} Vtopic中的第 j j j个单词, t i t_i ti为第 i i i个主题。该生成过程中涉及的所有参数用 Θ Θ Θ表示。在NTM的参数推断中,推导了 l o g p ( d ) logp(d) logp(d)的证据下界(ELBO)作为反向传播的目标函数,通过最大化ELBO,可以通过梯度上升有效地学习参数。这里和我们之前的博客推导的变分自动编码器是一致的,就不再在这里再介绍了。

1.2 监督深度主题模型

假设数据集中的文档 d d d与辅助标签 l d l_d ld(即 Z Z Z)相关联,辅助标签 l d l_d

  • 12
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
潜在的狄利克雷分配(LDA)等主题建模方法是用于分析大量文本数据的强大工具。 它们已广泛用于信息系统和管理研究中,以识别潜在的主题以进行数据探索,并作为特征工程机制来导出新变量以进行其他分析。 但是,现有的主题建模方法大多是无监督的,仅利用文本数据,而忽略了通常与文本相关的其他有用信息,例如客户评论中的星级或在线讨论论坛中的评论类别。 结果,提取的主题和基于学习的主题向量得出的新变量可能不准确,这可能导致对随后的计量经济学分析的估计有偏差或不正确,并且在预测任务中的表现不佳。 作为回应,我们提出了一种称为sDTM的新型监督主题建模方法,该方法以贝叶斯深度学习方式设计,同时并入了其他有用数据。 与传统主题建模方法相比,sDTM具有三个主要优势。 首先,它学习定量和定性测量的高质量主题,这可以帮助减轻对计量经济分析中潜在测量误差的担忧。 其次,这种有监督的学习模型比最先进的基准具有明显优越的预测性能。 最后,sDTM能够突出显示对结果有更强影响的单词,从而有助于透明的模型调查。 在三个数据集上的实验结果表明,sDTM不仅改善了监督学习任务,包括分类和回归,而且还表现出更好的模型拟合性(例如,较低的困惑度),有助于文档理解。 sDTM为IS和管理文献提供了方法论上的贡献,并且与使用大数据分析的研究具有直接相关性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值