11.主题模型概述(PLSA+LDA)

1.引出主题模型

对于文本分类的问题出现了“一词多义”,“多词一义”,朴素贝叶斯无法解决!

针对此,引出主题这个概念,通过主题,可以把一个词映射到多个主题中,可以把多个词映射到一个主题中去!

ps:通过主题这个隐变量,来改善现存的问题!

2.主题模型之pLSA(EM算法的应用)

1.选定文档  2.通过文档选定主题   3.通过主题选定词

ps:主要流程就是通过文档选择一个主题,根据主题来进行词的生成。

是一个两层贝叶斯网络,是一个生成式模型(属于频率学派)。

ps:两层贝叶斯网,生成式模型。

使用极大似然估计进行优化。因为有中间的隐变量Z,所以可以用EM算法来处理隐变量的问题!

通过对联合概率分布用极大似然估计在取期望得到目标函数:

第一步:求期望

先求给定初始化参数求隐变量的值:

对模型求期望:

注意:第一个L函数最后去掉了常数项是原函数。在注意一定要求期望啊,概率就是给定参数求隐变量

第二步:求最大

然后最大化目标函数求极值。

ps:更新初始化参数。

ps:实际中这些概率分布都很聚集没有提现到稀疏性会影响结果。词分布和主题分布都没有加先验知识进行稀疏性采样。

ps:针对稀疏性的问题,引入了LDA,通过加入先验条件的超参数来体现稀疏性。还加深了模型的复杂度,加强了拟合度。

3.主题模型之LDA

提一句共轭先验分布和共轭分布:

推广:两点分布--->多项分布,Beta------>Dirichlet分布(隐狄里克雷分布)!

ps:多项分布的后验分布的共轭分布是隐狄里克雷的先验分布。

LDA属于贝叶斯学派,是先假定参数服从一个分布(在这里是隐狄里克雷分布),然后在去估计参数的后验分布。

ps:频率学派,认为参数虽然未知,但是一定存在一个固定值,一般通过极大似然估计来进行求解参数。

ps:贝叶斯学派,认为未知的参数其本身也有一个分布,因此先假设参数的先验分布,然后在计算后验分布。

LDA等价于 pLSA+先验分布是一个生成模型    

ps:参数的后验概率先验概率 似然函数

简单介绍下Dirchlet分布

模型:

一般我们会使用对称的隐狄里克雷分布,因为我们对参数向量没有一个先验知识所以我们不能随机分配权重,而是让参数向量值全部相等变为一个对称的隐狄里克雷分布,式子的形式会更加好看!

图像的特点:

ps:要体现稀疏性需要超参数小于1。

ps:LDA在doc-topic  和  topic-word上分别加上了\alpha, \beta两个先验参数。

ps:LDA仅仅比PLSA多了一个稀疏性先验的参数。解决了概率值接近的问题。

ps:过程类似于PLSA的过程。

生成一个词的方式:

联合概率分布:

ps:\alpha ,\beta是先验分布(人工给定的),四个联合概率是文档,主题,文档到主题的转移,主题到词的转移。

ps:参数由于太多使用EM算法会很难进行求解。

吉布斯采样:Gibbs采样的思想,就是每次选取一个维度参数而确定其他维度的参数对这个维度的参数进行计算状态序列分布在采样进行更新,每个参数都这样做,直到整个状态序列收敛!

ps:通过采样来迭代求解参数。

4.pLSA和LDA的关系与区别

pLSA:不通过任何先验,学习出来doc-topic  和 topic-word分布 不是稀疏的 。(属于频率学派)

ps:学习出来的分布概率非常接近。

LDA:通过Dirichlet先验,可以使doc-topic  和 topic-word分布经常是稀疏的,是贝叶斯版的pLSA。(属于贝叶斯学派)

ps:解决了pLSA概率非常相似的问题。

LDA的应用:文档降维,用主题来表示文档,或者也可以直接作为文档的新特征用于其他处理!

ps:pLSA和LDA对短文本(如微博,短评)效果不好!

ps:PLSA和LAD都属于词袋模型,没有关注词与词之间的关系,而是通过主题的思想把词聚在一起,然后进行选取!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值