【论文笔记 1】On-Line LDA 在线LDA模型

最新推荐文章于 2022-02-18 10:07:31 发布

NEU_XXQ

最新推荐文章于 2022-02-18 10:07:31 发布

阅读量1.7k

点赞数 2

分类专栏： NLP 文章标签： nlp 机器学习算法人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NEU_XXQ/article/details/112734406

版权

On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking 阅读笔记

1.简介

论文题目：On-line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking
论文出处：Eighth IEEE International Conference on Data Mining
发表时间：12/15/2008

2.Motivation

基于LDA（隐含狄利克雷分布模型），本文提出了一种OLDA（On-Line LDA）模型，解决了利用LDA模型在线工作的问题。该论文提出的方法可以处理实时的流式数据，利用新信息中的信息增量对模型进行动态更新。

同时本文也提出了一种方法，动态监测主题变化，捕获主题随时间的演变

3.Model

OLDA是基于LDA提出的，这里先简述一下LDA的过程。

3.1.LDA

LDA是一个分层的贝叶斯网络，它通过在文档和单词中间定义潜在主题，将单词和文档联系起来。同时，文档和主题分布是独立的。通过分别在文档分布和主题分布上引入Dirichlet先验α和β，可以通过分层采样以及权重更新，就可以获得P(w|d)，也就是文档的主题分布。

LDA的概率模型图：
在这里插入图片描述

LDA主题生成过程：
这里采用论文中的表述过程叙述LDA的过程
在这里插入图片描述
其中，K、D分别为主题和文档的总个数。
简述其过程为：
首先从Dirichlet先验β中，采样得到主题下词语的多项式分布 $\ \phi_k$ ，同时从Dirichlet先验α中，采样得到文档下主题的多项式分布 $\ \theta_d$ ；
两步采样完成后，对于语料库中所有的文档 $\ d$ 中所有的单词 $w_{di}$ 做如下操作：

从主题分布 $\ \theta_d$ 中采样主题 $z_i$
从词语分布 $\ \phi_k$ 中采样词语 $w_i$

其中， $\ \phi$ 和 $\ \theta$ 通常采用吉布斯采样的方式来估算，而最关键的 $\ P(z|w)$ 则通过蒙特卡洛算法进行近似。求解将当前单词标记给主题其迭代式如下：
在这里插入图片描述

其中 $\ C^{VK}_{w_{z¬i},j}$

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
【论文笔记 1】On-Line LDA 在线LDA模型

【论文笔记 1】On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking 阅读笔记1.简介论文题目：On-line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking论文出处：Eighth
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。