【论文笔记 1】On-Line LDA 在线LDA模型

On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking 阅读笔记

1.简介

  • 论文题目:On-line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking

  • 论文出处:Eighth IEEE International Conference on Data Mining

  • 发表时间:12/15/2008

2.Motivation

基于LDA(隐含狄利克雷分布模型),本文提出了一种OLDA(On-Line LDA)模型,解决了利用LDA模型在线工作的问题。该论文提出的方法可以处理实时的流式数据,利用新信息中的信息增量对模型进行动态更新。

同时本文也提出了一种方法,动态监测主题变化,捕获主题随时间的演变

3.Model

OLDA是基于LDA提出的,这里先简述一下LDA的过程。

3.1.LDA

LDA是一个分层的贝叶斯网络,它通过在文档和单词中间定义潜在主题,将单词和文档联系起来。同时,文档和主题分布是独立的。通过分别在文档分布和主题分布上引入Dirichlet先验α和β,可以通过分层采样以及权重更新,就可以获得P(w|d),也就是文档的主题分布。

LDA的概率模型图:
在这里插入图片描述

LDA主题生成过程:
这里采用论文中的表述过程叙述LDA的过程
在这里插入图片描述
其中,K、D分别为主题和文档的总个数。
简述其过程为:
首先从Dirichlet先验β中,采样得到主题下词语的多项式分布   ϕ k \ \phi_k  ϕk,同时从Dirichlet先验α中,采样得到文档下主题的多项式分布   θ d \ \theta_d  θd
两步采样完成后,对于语料库中所有的文档   d \ d  d 中所有的单词   w d i \ w_{di}  wdi做如下操作:

  1. 从主题分布   θ d \ \theta_d  θd中采样主题   z i \ z_i  zi
  2. 从词语分布   ϕ k \ \phi_k  ϕk中采样词语   w i \ w_i  wi

其中,   ϕ \ \phi  ϕ   θ \ \theta  θ通常采用吉布斯采样的方式来估算,而最关键的   P ( z ∣ w ) \ P(z|w)  P(zw)则通过蒙特卡洛算法进行近似。求解将当前单词标记给主题其迭代式如下:
在这里插入图片描述

其中   C w z ¬ i , j V K \ C^{VK}_{w_{z¬i},j}  Cwz¬i,j

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值