Lesson 3 LDA主题模型

一、简要概述LDA主题模型的核心思想:

1、LDA理念

在LDA中,假设一篇文章对应一个或多个主题,一个主题对应一个单词分布。

现给定“文章”,我们可以根据这些“文章”,利用LDA算法求得各个文章的“主题”,其中“主题的个数”由作者自定义。LDA算法属于unsupervised learning,利用LDA算法求解主题的思路如下:
由于一篇文章对应一个或多个主题,一个主题对应一个单词分布,因此,我们可知:
p(w|d) = p(w|t)*p(t|d),其中{w:单词,d:文章,t:主题}。
现给定training document,为求其主题,我们可以通过不断迭代而实现,具体过程如下:
step1:初始化 p(w|t),p(t|d);
step2:根据初始化的p(w|t),p(t|d),我们可以得到每个topic下的p(w|d),选取p(w|d)值最大时的topic作为word的主题。如果此时word的topic发生变化,则相应的更新p(w|t),p(t|d)。
step3:不断重复上述2个步骤,直到p(w|t),p(t|d)收敛,即得到各个document的topic。
note that:
p(t|d) = word_t_count / word_d_count;其中word_t_count为文档d中属于主题t的word的个数,word_d_count为文档d中word的个数;
p(w|t) = word_coun / word_t ;其中word_count为主题t中word的个数,word_t为主题t中word的总数;

2、LDA模型所用分布

LDA模型遵循了“贝叶斯思想”,即:后验概率 = 先验概率 + 似然概率,由于在LDA中,主题是通过不断迭代来确定,即:第i次迭代获得的后验概率,会被用为第i+1次迭代中的先验概率,为了使得先验概率和后验概率的分布一致,在LDA中我们采用“共轭分布”来诠释模型。

在LDA中,似然概率为二项分布(多项分布),先验概率为beta分布(狄利克雷分布),后验概率为beta分布(狄利克雷分布)。

在LDA中,document下的topic分布,以及topic下的word分布 服从“狄利克雷分布”(先验分布),p(t|d),p(w|t)(后验分布)的计算采用多项分布(似然概率),即对于p(t|d)有,Dirichlet(t|d) = Dirichlet(t) + Multicount(t_count)。同理对于p(w|t)有,Dirichlet(w|t) = Dirichlet(w) + Multicount(w_count)。

具体可查看LDA的公式版解析:文本主题模型之LDA(一) LDA基础

二、LDA PPT

1、LDA解析




2、LDA和PLSA的对比

简而言之,PLSA遵循“频率学派思想”,LDA遵循“贝叶斯派思想”。

三、利用LDA分析希拉里邮件内容

四、LDA推荐读物

LDA推荐读物:LDA数学八卦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值