NLP13-LDA引发的一系活动

20 篇文章 3 订阅

这里写图片描述

摘要: 目标是想了解也学习LDA,寻找学习LDA相关资料,学习LDA相关的概率基础,对于LSI,pLsa,LDA作为主题模型的对比;然后到LDA本身,对LDA相关的概率基础进行学习。把相关资料疏理与集合起来。

1. 写在前面

对于概率的思考这一事件,源于LDA[Latent Dirichlet Allocation]的学习;LDA是文本的主题模型,有相关的包Ginsim或sklearn都可以实现LDA的使用,一个参数就可以实现一系列的功能了。不过,每次用,心中都会有有一个结:LDA究竟是什么?几次试着去学习LDA,扰乱人的是:Gama函数,Beta分布,Bayes,EM,Dirichlet, LSA, pLSA, svd, MCMC,多项分布,文章选择主题—主题选择词,先验,后验,似然…….好像有些把我弄乱了。静下心来分析因:基础不扎实!!!
学习就应该从宏观去把握【要有基础为前提】,LDA不是一个基础的东西,它是建立在基础的上层的应用,应该从同一层去分析它。NLP高层:文本预处理,分词,Bag-of-Words,语料向量表示,特征选择,特征抽取及特征抽取相模型,其中NLP主题模型就是NLP模型,例如LSI/LSA,pLSA,LDA。基于主题这一大思想,把歧义降下去,例如APPLE,是理解成一种水果还是手机呢?对于一个词,没有上下文怎么理解都不合适。但如果可以挖掘出Apple是水果为主题或者电子产品为主题会对文本理解就准确多了;另外还有一个问题,对于传统的向量模型,例如“小明打了小红。”建立向量后,词是不分先后的,就是BOW表示,机器理解起来有可能会是“小红打了小明。”。这是一系列的NLP问题….

2. LSI/LSA,pLSA,LDA关系

来自皮皮blog的《 主题模型TopicModel:Unigram、LSA、PLSA模型》
http://blog.csdn.net/pipisorry/article/details/42560693的图,文章有相关推导。
这里写图片描述

3. LSI/LSA

如下的LSI/LSA陈述来“自笨兔勿应”《LSA,pLSA原理及其代码实现》
http://www.cnblogs.com/bentuwuying/p/6219970.html

LSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index),是
Scott Deerwester, Susan T. Dumais 等人在 1990
年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space
model)一样使用向量来表示词(terms)和文档documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;不同的是,LSA
将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

这里写图片描述
对于SVD的解释,来自beck_zhou的《LSA/PLSA》
http://blog.csdn.net/zhoubl668/article/details/7881318
标准的SVD可以写为
这里写图片描述
其中,U和V为正交矩阵,有:
这里写图片描述
sigma是包含N的所有奇异值的对角矩阵。LSA降维的方式就是只取最大的K个奇异值,而其他置为0,于是得到了共生矩阵的近似:
这里写图片描述
下图形象的展示了LSA的过程:
这里写图片描述
由LSA在训练集合上得到的参数,当一个新的文档向量到来时,我们可以利用下式将其原始term space映射到latent space:
这里写图片描述
4. pLSA
pLSA模型
这里写图片描述
pLsa求解两分布的推导,来自
http://blog.csdn.net/puqutogether/article/details/41720073
这里写图片描述
这里写图片描述

5. LDA

pLSA是由LSA到LDA的过度时期,LSA比较粗暴,没有太多的理论作为支撑,后来概率化到pLSA,研究人员,给它定义了模型,可是,对于一分布还未够准确,概率模型不够完备;后来引入了Byes的先验,诞生了LDA。
来自优酷的视频讲解笔记,http://v.youku.com/v_show/id_XMTI0ODI1MTIzNg==.html?spm=a2h0k.8191407.0.0&from=s1.8-1-1.2《LDA主题模型》:
012
这里写图片描述

来自Wiki的一张图:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
这里写图片描述
这里写图片描述
LDA相对于pLsa增加了贝叶期的思想,Bayes在先验上做了文章,多项式分布的共轭先验Drichlet分布,通过alhpa或beta作为超参去控制。
从alhpa开始,它是一组超参,参数的个数一般会比先验分布的参数多,是Dirichlet分布的参数;alpha向量由我们给定的,当一组变量给定后,也就对于一篇文章确定了一个主题多项分布theta,对于主题分布上采样出一个主题Z,然后再来看一下beta,也是Dirichlet分布,beta也是一个向量,也是我们给定,当beta给定后,也就产生了一个结合刚才的主题Z的多项分布phi,从phi分布中采样,就出弄了词W,这样一个词就产生了,接着产生另一个词,重复Ni次;当一个文档生成后,再接着生成另外一个文档,如此重复M次,就形成了大语料。一句话,Drichlet分布是分布的分布,采样出来的是一个分布,后还要对这个分布采样一次才是值。

最后,形式化一下,LDA的主题模型为:
这里写图片描述
对Dirichlet想深入理解,请细看这个:http://www.datalearner.com/blog/1051459673766843
或者:http://i.youku.com/u/UMzIzNDgxNTg5Ng==/videos
Dirichlet Process是最流行的贝叶斯非参数模型;
6. LDA的基础总结
6.0 LDA缺点:由于lda采用了词袋的方法,将每一篇文档实为一个词频向量,从而将文本信息转换成为了易于建模的数字信息,但是却没有考虑词与词之间的顺序。(来自:http://blog.csdn.net/a123456ei/article/details/22767429
6.1 一个函数
gamma函数–知道有这个函数存在就可以了;
6.2 四个分布
二项分布、多项分布、beta分布、Dirichlet分布 — 由于二项分布与beta分布推广到多项分布与Dirichlet分布;
6.3 一个概念
共轭先验—先验与似然函数作用后的后验与先验相同的分布形式【参数不同,不过参数会加入样本的计算】;
6.4 一个理念
贝叶斯框架—理解这个很重要,是贝叶斯的理念把多项分布与Dirichlet分而连起来的。
6.5 两个模型
pLSA、LDA【语言模型】,这个在前面已经有涉及到。
6.6 一个采样
Gibbs采样【MCMC—-MH—Gibbs】《LDA-math-MCMC 和 Gibbs Sampling(2)》http://www.52nlp.cn/lda-math-mcmc-%E5%92%8C-gibbs-sampling2
《MC, MCMC, Gibbs采样 原理&实现》
http://blog.csdn.net/abcjennifer/article/details/25908495
6.7 一个变分:《变分推断(variational inference)》http://blog.csdn.net/u012436149/article/details/55000323
6.8 相关思想最大似然MLE、最大后验估计MAP、EM
6.8.1 最大似然值定义
https://wenku.baidu.com/view/0c3fa28fa0116c175f0e48e2.html
这里写图片描述
6.8.2 最大似然思想
https://wenku.baidu.com/view/a9e790d528ea81c758f57866.html
这里写图片描述
6.8.3 最大似然步骤
这里写图片描述
6.8.4 最大似然例子
这里写图片描述
这里写图片描述

其实最大似然估计就是在给定一组数据和一个待定参数模型,如何确定这个模型未知参数,使得这个确定后的参数模型产生的已知数据概率最大。

在《最大似然估计 (MLE) 最大后验概率(MAP)
http://www.cnblogs.com/sylvanas2012/p/5058065.html》中,采用了一个例子去说明MLE与MAP的联系与区别;
一个概率模型有时候既含有观察变量,有含有隐变量。如果只有观察变量那么我们可以用最大似然法(或者贝叶斯)估计未知参数,但是如果还含有隐变量就不能如此简单解决了。这时候就需要EM算法。引用于《MLE MAP EM》
http://www.cnblogs.com/GuoJiaSheng/p/3966812.html?utm_source=tuicool
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。
引用《最大似然估计(MLE)和最大后验概率(MAP)》
https://www.cnblogs.com/ChengQH/p/e5dd604ee211533e50187c6fd37787bd.html

《LDA主题模型小结》http://blog.csdn.net/fengsser/article/details/52833284
EM推断:《(EM算法)The EM Algorithm》https://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
《EM算法》PPT
https://wenku.baidu.com/view/3396bb4d6294dd88d0d26bee.html

【内容整合,http://blog.csdn.net/ld326/article/details/78618979

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值