LDA文本建模(3)——pLSA模型和LDA模型

统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。


1)LDA文本建模(1-2)里应该明白的结论

  • beta分布是二项式分布的共轭先验概率分布:
    •  对于非负实数,我们有如下关系

------------------(1)

    其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。

  • 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
    •  把从整数集合延拓到实数集合,从而得到更一般的表达式如下:

------------------(2)

    针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。  ”

  • 频率派和贝叶斯派思考问题的模式:
频率派 把需要推断的参数θ看做是固定的未知常数,即概率 虽然是未知的,但最起码是确定的一个值。同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
贝叶斯派 的观点则截然相反,他们认为待估计的 参数是随机变量,服从一定的分布 ,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数 的分布。他们的思维模式是: 先验分布  + 样本信息  
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值