Sparse LDA

最新推荐文章于 2022-09-26 12:22:00 发布

sonas_Guo

最新推荐文章于 2022-09-26 12:22:00 发布

阅读量849

点赞数

分类专栏：机器学习文章标签：主题模型

本文链接：https://blog.csdn.net/guolinsen123/article/details/75578661

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Sparse LDA
- LDA
- Sparse LDA算法
伪代码
参考文献

Sparse LDA

LDA

p (z d i = k | r e s t) \propto ( n - d i k d + α k ) ( n - d i k w + β w ) n - d i k + β ¯

$p(z_{di}=k|rest)\propto \frac{(n^{-di}_{kd}+\alpha_k)(n^{-di}_{kw}+\beta_w)}{n^{-di}_{k}+\overline\beta}$
其中，

w $w$ 表示

wdi $w_{di}$ ，

β¯=∑wβw $\overline\beta=\sum_w\beta_w$ ，

n−dikd $n^{-di}_{kd}$ 表示文档

d $d$ 下主题

k $k$ 出现的次数（除去文档

d $d$ 中第

i $i$ 个词），

n−dikw $n^{-di}_{kw}$ 表示主题

k $k$ 下词

w $w$ 出现的次数（除去文档

d $d$ 中第

i $i$ 个词）。

Sparse LDA算法

LDA模型中的 $n^{-di}_{kd}$ 和 $n^{-di}_{kw}$ 在实际应用中往往非常稀疏，基于这样的一个事实，我们对LDA的采样公式做如下变换：

p (z d i = k | r e s t) \propto ( n - d i k d + α k ) ( n - d i k w + β w ) n - d i k + β ¯ = n - d i k w ( n - d i k d + α k ) n - d i k + β ¯ + n - d i k d β w n - d i k + β ¯ + β w α k n - d i k + β ¯

$\begin{aligned} p(z_{di}=k|rest)\propto& \frac{(n^{-di}_{kd}+\alpha_k)(n^{-di}_{kw}+\beta_w)}{n^{-di}_{k}+\overline\beta} \\ &=\frac{n^{-di}_{kw}(n^{-di}_{kd}+\alpha_k)}{n^{-di}_{k}+\overline\beta}+\frac{n^{-di}_{kd}\beta_w}{n^{-di}_{k}+\overline\beta}+\frac{\beta_w\alpha_k}{n^{-di}_{k}+\overline\beta} \\ \end{aligned}$
对上式求和：

Q = \sum k p (z d i = k | r e s t) \propto \sum k ( n - d i k d + α k ) ( n - d i k w + β w ) n - d i k + β ¯ = \sum k n - d i k w ( n - d i k d + α k ) n - d i k + β ¯ + \sum k n - d i k d β w n - d i k + β ¯ + \sum k β w α k n - d i k + β ¯ = E + F + G = \sum k e (k) + \sum k f (k) + \sum k g (k)

$\begin{aligned} Q=\sum_k p(z_{di}=k|rest)\propto& \sum_k\frac{(n^{-di}_{kd}+\alpha_k)(n^{-di}_{kw}+\beta_w)}{n^{-di}_{k}+\overline\beta} \\ &=\sum_k\frac{n^{-di}_{kw}(n^{-di}_{kd}+\alpha_k)}{n^{-di}_{k}+\overline\beta}+\sum_k\frac{n^{-di}_{kd}\beta_w}{n^{-di}_{k}+\overline\beta}+\sum_k\frac{\beta_w\alpha_k}{n^{-di}_{k}+\overline\beta} \\ &=E+F+G \\ &=\sum_ke(k)+\sum_kf(k)+\sum_kg(k) \end{aligned}$
其中，

c (z = k) = n - d i k d + α k n - d i k + β ¯ e (z = k) = n - d i k w c (k) f (z = k) = n - d i k d β w n - d i k + β ¯ g (z = k) = β w α k n - d i k + β ¯

$\begin{aligned} c(z=k)=\frac{n^{-di}_{kd}+\alpha_k}{n^{-di}_{k}+\overline\beta}\\ e(z=k)=n^{-di}_{kw}c(k) \\ f(z=k)=\frac{n^{-di}_{kd}\beta_w}{n^{-di}_{k}+\overline\beta} \\ g(z=k)=\frac{\beta_w\alpha_k}{n^{-di}_{k}+\overline\beta} \end{aligned}$

其中， $E$ 包含 $|Nonzero(n^{-di}_{kw})|$ 项，称为“topic word”桶， $F$ 包含 $|Nonzero(n^{-di}_{kd})|$ 项，称为“document topic”桶， $G$ 包含 $K$ 项，称为“smooth only”桶。
采样词的主题时，首先计算 $Q=E+F+G$ ,然后生成一个随机变量 $U\sim Uniform(0,Q)$ ，根据 $U$ 的值决定在三个桶里哪个进行采样：
- 如果 $U<E$ ，主题落“topic word”桶内；
- 如果 $U<E+F$ ，主题落在“document topic”桶内；
- 否则主题落在平滑桶里。

对于每次迭代中的一篇文档来说， $F$ 项对于该文档中的每个词都一样，因此只需要计算一遍，而且计算的大小为 $|Nonzero(n^{-di}_{kd})|$ ，因为 $n^{-di}_{kd}$ 是非常稀疏的。对于 $G$ 项来说，可以预先计算出来，只有 $E$ 项需要针对每个词计算，但是复杂度只有 $O(|Nonzero(n^{-di}_{kw})|)$ 。