机器学习 之 LDA主题模型

原创 2015年07月06日 23:24:13

今天终于开始啃LDA了,同时恶补一下概率分布方面的东西。

先放上来大神学习LDA的五个步骤:
1. 一个函数:gamma函数
2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
3. 一个概念和一个理念:共轭先验和贝叶斯框架
4. 两个模型:pLSA、LDA
5. 一个采样:Gibbs采样

LDA(Latent Dirichlet Allocation)

  • 全称是隐含狄利克雷分布
  • 一种主题模型
  • 将文档集中每篇文档的主题以概率的形式给出
  • 可以用于主题聚类或分本分类
  • 一种典型的词袋模型(一个文档有很多词,词是无序的)
  • 一篇文档可以含有很多主题
  • 文档的每个词都由一个主题生成

    在LDA中,一篇文档是这样生成的:
    LDA生成文档

四种概率分布

下面就分别介绍一下二项分布、多项式分布、β分布和狄利克雷分布。

二项分布到多项式分布

二项分布是伯努利分布的扩展版本,多项式分布则又是二项分布的扩展版本。伯努利分布是一个离散型的随机分布,做一次实验,实验的结果只有两个,而二项分布则将实验次数扩展到了多个,而多项式分布则将实验的结果也扩展到了多个。

β分布到狄利克雷分布

狄利克雷分布是β分布在高维度上的推广。

共轭先验分布

  • 在贝叶斯概率论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
  • β分布是二项式分布的共轭先验分布:观测到的数据符合二项分布,参数的先验分布和后验分布属于β分布的情况,就是Beta-Binomial共轭。换言之,Beta分布是二项式分布的共轭先验概率分布。
  • 狄利克雷分布式多项式分布的共轭先验分布:观测到的数据符合多项式分布,参数的先验分布和后验分布属于狄利克雷分布的情况,就是Dirichlet-Multinomial共轭。换言之,狄利克雷分布式多项式分布的共轭先验分布。

几个基础模型

一元文法统计模型(Unigram model)

这里写图片描述

这里写图片描述
Wn是文本中第n个词,p(Wn)表示这个词的先验概率。

这个模型假设文本中的词服从多项式分布,所以p是服从多项式分布的参数,而狄利克雷分布是多项式分布的先验分布,因此α服从狄利克雷分布。

Mixture of Unigram model

这里写图片描述

pLSA模型

pLSA的文档生成模型

pLSA生成文档的主要过程就是:先选定文档生成主题,再根据主题生成词。

具体如下:
plsa

主题建模

利用看到的文档推断隐藏的主题的过程。
这里写图片描述
在pLSA中,文档d和词w是我们得到的样本,要推断未知的主题。(样本随机,参数未知但固定,频率派的思想)
这里写图片描述

求解的过程实在太复杂了,总结下来基本是这样:

这里写图片描述

LDA

之前说到pLSA是频率派的思想,那么LDA就是贝叶斯派的思想。它认为主题分布和词分布也是不确定了,为了得到他们,需要用他们的先验分布(Dirichlet)来进行估计。所以,LDA的过程是这样的:
这里写图片描述

pLSA与LDA的对比

概率图

这里写图片描述

参数估计方法

这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一...
  • huagong_adu
  • huagong_adu
  • 2012年09月03日 14:09
  • 209216

主题模型TopicModel:隐含狄利克雷分布LDA

http://blog.csdn.net/pipisorry/article/details/42649657主题模型LDA简介隐含狄利克雷分布简称LDA(Latent Dirichlet alloc...
  • pipisorry
  • pipisorry
  • 2015年01月12日 21:07
  • 20569

LDA(Latent Dirichlet Allocation)主题模型

LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。虽然说LDA模型简单,但是它的数学推导却不是...
  • aws3217150
  • aws3217150
  • 2016年12月24日 16:22
  • 2382

机器学习:主题模型:LSA

空间向量模型的缺点http://blog.csdn.net/pipisorry/article/details/42560331 Term-Document矩阵 上图是一个Term-Document矩...
  • mijian1207mijian
  • mijian1207mijian
  • 2016年05月31日 14:00
  • 556

机器学习:主题模型:PLSA

http://blog.csdn.net/pipisorry/article/details/42560877 * 概率潜在语义分析简称pLSA(Probabilisticlatent se...
  • mijian1207mijian
  • mijian1207mijian
  • 2016年05月31日 14:39
  • 245

Spark2.0机器学习系列之9: 聚类算法(LDA)

聚类算法 LDA Spark2.0代码
  • qq_34531825
  • qq_34531825
  • 2016年09月21日 15:58
  • 9227

史上最直白的LDA教程之一

前言LDA线性鉴别分析,又叫线性鉴别矢量,它是Ronald Fisher发明的,所以有时候又叫Fisher鉴别矢量,它的核化版本叫KFDA(Kernel Fisher Discriminant Ana...
  • u011539200
  • u011539200
  • 2015年12月16日 16:26
  • 2694

简述LDA主题模型

简述LDA 什么是LDA主题模型 主题分布与词分布 两点分布 二项分布 多项式分布 参数估计 极大似然估计 贝叶斯估计 共轭先验分布 形式化LDA简述LDALDA涉及的知识很多,对于作者这样的菜鸟来说...
  • fengser
  • fengser
  • 2016年02月17日 20:32
  • 1136

王小草【机器学习】笔记--主题模型LDA实践与应用

标签(空格分隔): 王小草机器学习笔记笔记整理时间:2016年12月30日 笔记整理者:王小草1. LDA的实现工具在主题模型LDA的理论篇,长篇大幅的公式与推导也许实在烦心,也不愿意自己去写代码实...
  • sinat_33761963
  • sinat_33761963
  • 2016年12月30日 18:12
  • 3666

基于主题模型的文本聚类分类

主题模型(Topic Model)是我研究生阶段的研究方向之一,利用主题模型和事先设定好的主题个数,可以训练出文档集合中不同主题所占的比例(主题比例)以及各个主题下关键词的出现的概率(主题分布),通过...
  • BD_Jiang
  • BD_Jiang
  • 2016年09月18日 20:28
  • 1046
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习 之 LDA主题模型
举报原因:
原因补充:

(最多只允许输入30个字)