LDA前言知识

  在 2003 年(准确地说应该是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻译成中文就是——潜在狄利克雷分配模型),让主题模型火了起来。
  LDA根据给定的一篇文档,推测其主题分布。通俗来说,人类根据文档生成过程写成了各种各样的文章,现在人们想让计算机利用LDA干一件事:计算机分析推测网络上各篇文章,分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
  LDA 主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推断、EM 算法、Gibbs 抽样等知识。LSI、PLSI等也为主题模型,LDA 是此基础上的一个突破,它之后也有很多对它进行改进的主题模型。本文主要讲解LDA的基础知识,即一个函数、四个分布。

一个函数

  Gamma分布作为先验分布很强大,在贝叶斯统计分析中被广泛的应作其它分布的先验。下面我们来看一下Gamma函数。

Gamma函数式:

f(x)=+0txetdt

性质:
Γ(x+1)=xΓ(x)
Γ(n)=(n1)!

由上我们认识了Gamma函数、知道了其性质。下面我们来看四个分布。

四个分布

二项分布

  二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
  二项分布即重复n次的伯努利试验,记为 x bn,p 。简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。

二项分布的概率密度函数为:
PK=k=(nk)pk(1p)nk

多项分布

  多项分布,是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k)。
  比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布,其中 ki=1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值