主题模型
文章平均质量分 78
冰淇淋和慕斯蛋糕
我是一棵小青菜,
不仅菜,还卷不起来
展开
-
【论文阅读】【HLLDA】 A Hierarchical Model of Web Summaries
我们认为文档层次结构H(例如DMOZ层次结构)是一棵树,其中内部节点(类别节点)和叶子节点(文档),以及连接它们的边是先验已知的。关于DMOZ,网上搜到的一个dmoz网站进行了截图,不知道是不是这个意思。H中的每个节点Ni被映射到一个多项词分布MultNi,而到 叶节点D(文档)的每个路径cd 与 出现在这条路径上的多项混合物(MultC0 . . . MultCk, MultD) 相关。(好长一句话【原文(部分)】Each node Ni in H is mapped to a multi-nomi原创 2022-06-18 02:56:17 · 305 阅读 · 1 评论 -
【LDA】吉布斯采样
吉布斯采样是用条件概率得到联合概率分布。其实是得到我们想要东西的近似解蒙特卡洛方法是为了解决一些不太好求解的求和或者积分问题。其实就是一个近似方法,通过采样的多个样本代替原本的连续函数,帮助我们把这个式子解出来。对于一些常见的概率分布p(x),如正态分布等,我们先通过一些公式将其转换为0-1之间的数,(均一化处理嘛,)然后进行采样。对于不太常见的概率分布f(x),我们用一个常见的概率分布(如高斯分布)q(x)把他蒙上,就是让 f(x)...原创 2022-06-16 03:19:30 · 1967 阅读 · 0 评论 -
【LDA】基础知识笔记——主要是AE、VAE
似然函数原创 2022-06-06 23:29:26 · 287 阅读 · 0 评论 -
【LDA】EM变分推理 粗略版笔记【待完善
大佬说的很详细了 :csdn_机器学习之潜在狄利克雷分配(LDA)变分EM算法及python实现简单概括一下:思想:(原文摘录:)假设模型是联合概率分布p(x,z),其中 观测变量x , 隐变量 z ,包括参数。目标是学习模型的后验概率 p ( z ∣ x )。[tip:已知x,求隐变量z]但是这个分布复杂无法直接求解,所以考虑用概率分布 q ( z ) 来近似条件概率分布 p ( z ∣ x ),之后用KL散度KL(q(z)||p(z|x)) 计算两者之间的相似度,q(z)称为变分分布。KL散度原创 2022-06-06 22:59:51 · 141 阅读 · 0 评论 -
【LDA】LDA主题模型笔记—主要是狄利克雷
d表示文章,z表示主题,w表示单词这里意思是,狄利克雷先验分布 产生 一组 多项式分布集合也就是说 狄利克雷分布 产生 主题分布 (也就是doc-topic分布)(超参数 α\alphaα情况下 )贝叶斯思想中:先验概率+参数估计=后验概率在beta分布中 beta分布研究的是 “一个长度为k的乱序序列(序列中每个数符合均匀分布)中,第k个大的数满足什么分布”的问题。(链接中对应部分的含糊自我概括版),也就是说,对于序列中每个数,beta可以给出这个数的一个分布,也就是说,对序列中的每个数,只要知道原创 2022-06-04 04:24:28 · 842 阅读 · 0 评论