统计学习方法-潜在狄利克雷分配(LDA)-读书笔记

本文介绍了潜在狄利克雷分配(LDA)模型,包括狄利克雷分布的概念和LDA的生成过程,讨论了LDA与PLSA的异同,并详细阐述了LDA的吉布斯抽样算法和变分EM算法在文本话题分析中的应用。
摘要由CSDN通过智能技术生成

1、前言

LDA是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。LDA能更好解决过拟合现象。
LDA模型是含有隐变量的概率图模型

2、狄利克雷分布

①多项分布
多项分布是一种多元离散随机变量的概率分布。
②狄利克雷分布
狄利克雷分布是一种多元连续随机变量的概率分布,是贝塔分布的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。
在这里插入图片描述
在这里插入图片描述
③二项分布和贝塔分布
二项分布是多项分布的特殊情况,贝塔分布是狄利克雷分布的特殊情况。
共轭先验
狄利克雷分布属于指数分布族
狄利克雷分布是多项分布的共轭先验。
贝叶斯学习中尝试用共轭分布。如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布。

3、潜在迪利克雷分配模型

LDA是文本集合的生成概率模型。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。
LDA模型表示文本集合的自动生成过程,首先,基于单词分布的先验分布生成多个单词分布,及决定多个话题内容,之后,基于话题分布的先验分布生成多个话题分布,即决定多个文本内容;基于话题分布生成话题序列,基于单词分布生成单词。文本的单词序列是观测变量,文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。
利用LDA进行话题分析,就是对给定的文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。

3.1LDA和PLSA

相同点是两者都假设话题是单词的多项分布,文本时话题的多项分布。
不同点是LDA使用狄利克雷分布作为先验分布,而PLSA不适用先验分布(或者假设先验分布是均匀分布)两者对文本生成过程有不同假设;学习过程LDA基于贝叶斯学习,PLSA基于极大似然估计。LDA优点是,使用先验概率分布,可以防止学习过程中产生的过拟合。

3.2生成过程

给定单词集合W,文本集合D,话题集合Z,狄利克雷分布的超参数 α 和 β \alpha 和\beta αβ
(1)生成话题的单词分布
随机生成K个话题的单词分布。过程如下,按照狄利克雷分布 D i r ( β ) Dir(\beta) Dir(β)随机生成一个参数向量 ψ k , ψ k − D i r ( β ) {\psi}_k,{\psi}_k-Dir(\beta) ψk,ψkDir(β)作为话题zk的单词分布p(w|zk)
(2)生成文本的话题分布
随机生成M个文本的话题分布。过程如下,按照迪利克雷分布 D i r ( α ) Dir(\alpha) Dir(α)随机生成一个参数向量 θ m , θ m − D i r ( α ) {\theta}_m,{\theta}_m-Dir(\alpha) θm,θmDi

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值