![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
主题模型(topic model)
风吹草地现牛羊的马
这个作者很懒,什么都没留下…
展开
-
Householder Flow
Householder Flow变分自动编码器(VAE)是可扩展的、强大的生成模型。然而,变分后验的选择决定了VAE的可操作性和灵活性。一般来说,潜变量是用一个对角协方差矩阵的正态分布建模的。这可以提高计算效率,但通常不能灵活地匹配真实的后验分布。丰富变分后验分布的一种方法是应用正则化流,即normalizing flows。这种操作是对潜变量的简单后验分布做一系列可逆变换,将其变为复杂,灵活的后验分布。Householder Flow就是normalizing flows中的一种。推导设q(x)q(x)原创 2020-07-15 19:36:38 · 586 阅读 · 1 评论 -
二项式定理与二项分布、多项式定理与多项分布
二项式定理与二项分布二项式定理二项式定理我们在高中就学过了,即:(a+b)n=(n0)anb0+(n1)an−1b1+....+(nn−1)a1bn−1+(nn)a0bn=∑i=0n(ni)an−ibi(a+b)^n = {n \choose 0}a^nb^0 + {n \choose 1}a^{n-1}b^1+....+{n \choose n-1}a^1b^{n-1} + {n \cho...原创 2019-09-29 12:50:07 · 7939 阅读 · 2 评论 -
正向KL散度与反向KL散度
KL散度的公式是KL[p(x)∣∣q(x)]=∫xp(x)logp(x)q(x)dxKL[p(x)||q(x)] = \int_{x}p(x)log{p(x) \over q(x)}dxKL[p(x)∣∣q(x)]=∫xp(x)logq(x)p(x)dx假设真实分布为p(x)p(x)p(x),我们想用分布q(x)q(x)q(x)去近似p(x)p(x)p(x),我们很容易想到用最小化KL散度来求,但由于KL散度是不对称的,所以并不是真正意义上的距离,那么我们是应该用KL[p∣∣q]KL[p||q]转载 2020-10-10 16:32:52 · 5372 阅读 · 2 评论 -
主题模型(三)潜在狄利克雷分配 LDA 求解之变分EM算法
本文涉及的知识点有,最大似然,贝叶斯估计,共轭分布,EM算法,变分推断等。极大似然估计、极大后验估计和贝叶斯估计在进行下面的推导之前,首先要了解参数估计的相关内容,见最大似然估计(MLE)、最大后验估计(MAP)和贝叶斯估计LDA初探在PLSA模型中,doc-topic分布和topic-word分布(也就是在主题模型(二)概率潜在语义分析(PLSA或PLSI)中求解的p(zk∣di)和p(wj∣zk)p(z_k|d_i)和p(w_j|z_k)p(zk∣di)和p(wj∣zk))一旦被求解,就原创 2020-10-09 13:06:52 · 665 阅读 · 0 评论 -
变分推断一(基于平均场理论求解Q)
什么是变分推断XXX : 观测变量ZZZ:latent variable + parameter在变分推断中,样本点XXX被称为观测变量(observed data),未知参数和潜变量被称为不可观测变量,都用ZZZ来表示。我们的模型一般都是根据观测数据来求ZZZ的后验分布,也就是求P(Z∣X)P(Z|X)P(Z∣X),但是有的时候,P(Z∣X)P(Z|X)P(Z∣X)是不好求的,所以可以尝...原创 2019-10-30 16:32:29 · 4465 阅读 · 2 评论 -
共軛分布与贝叶斯估计
从最大似然估计(MLE)、最大后验估计(MAP)和贝叶斯估计中的贝叶斯估计我们知道,贝叶斯学派认为给定一组观测数据X=(x1,x2,,,,,xn)X = (x_1, x_2, ,,,, x_n)X=(x1,x2,,,,,xn),估计分布的未知参数θ\thetaθ时,θ\thetaθ应该也是服从一个分布的,所以在计算时,要计算后验概率P(θ∣X)P(\theta|X)P(θ∣X)的整个分布,...原创 2019-09-25 18:51:32 · 689 阅读 · 0 评论 -
最大似然估计(MLE)、最大后验估计(MAP)和贝叶斯估计
首先需要说明的是,这三种方法都是用来参数估计的方法,也就是已知观测数据,来求解未知的分布(分布也就是模型)的参数θ\thetaθ的方法。给定一组观测数据X=(x1,x2,,,xn) X = (x_1, x_2,,,x_n)X=(x1,x2,,,xn),我们知道这组数据是服从某个参数为θ\thetaθ的真实分布的,但是我们无法直接求出θ\thetaθ,那么应该怎么来求呢?最大似然估计(ML...原创 2019-09-25 15:22:59 · 2284 阅读 · 0 评论 -
EM算法总结
本文需要对EMEMEM算法有一定的了解。若对EMEMEM算法之前没有了解过,不建议看本文。这里给出常用的推导EM算法的案例:高斯混合算法(GMM)与最大期望算法(EM)的推导假设隐变量为ZZZ,可观测变量为XXX,要求解的未知参数为θ\thetaθ。在EM算法框架中,(X,Z)(X,Z)(X,Z)称为完全数据。EM算法其实还是为了求解最大似然解,但是并不是最大似然的解析解,而是近似解。所以我们还是要推导出未知参数θ\thetaθ的最大似然形式。完全数据的联合概率分布:p(X,Z;θ)=p(X;θ)p原创 2020-10-04 17:18:32 · 518 阅读 · 0 评论 -
主题模型(二)概率潜在语义分析(PLSA或PLSI)
https://zhuanlan.zhihu.com/p/40877820原创 2020-10-03 15:29:51 · 894 阅读 · 0 评论 -
主题模型(一)LSA(LSI)
先考虑这样一个问题,给定若干篇文档集合,怎么从中找出最相似的两篇?相似性可以由余弦距离衡量。余弦距离公式:cos(a→,b→)=a→∗b→∣a∣∗∣b∣cos(\overrightarrow{a}, \overrightarrow{b}) = { \overrightarrow{a}*\overrightarrow{b} \over |a|*|b| }cos(a,b)=∣a∣∗∣b∣a∗b因此只要把文档表示成向量就可以用余弦距离来衡量了。在介绍LSA之前,先了解一下向量空间模型。向量空间原创 2020-09-27 14:07:00 · 3248 阅读 · 0 评论 -
主题模型简介(topic model)
定义对于一个文档集合来说,假如一篇文章是讲猫科动物的,那么可能会一部分讲猫, 一部分讲老虎, 一部分讲猎豹。那么讲猫的那一部分与猫有关的词语出现的频率应该高一些,比如“鱼”,“老鼠”等,讲老虎的那一部分与老虎有关的词语出现的频率应该高些,比如“森林之王”,“一山不容二虎”等,讲猎豹那一部分与猎豹有关的词语出现的频率应该高些,比如"速度",“豹纹”等等。所以一篇文档应该有多个主题,每个主题的比例不同,每一个主题下面也应该有很多词语,每个词语的比例也不同。主题模型就是用数学框架来体现出文档的这种特点,主题模原创 2020-09-24 09:33:07 · 2227 阅读 · 0 评论