统计学习方法-潜在狄利克雷分配（LDA）-读书笔记

最新推荐文章于 2024-07-25 15:05:43 发布

qq_38829768

最新推荐文章于 2024-07-25 15:05:43 发布

阅读量1.7k

点赞数

分类专栏：学习笔记文章标签：狄利克雷分布统计学习方法机器学习 LDA

本文链接：https://blog.csdn.net/qq_38829768/article/details/103130441

版权

本文介绍了潜在狄利克雷分配（LDA）模型，包括狄利克雷分布的概念和LDA的生成过程，讨论了LDA与PLSA的异同，并详细阐述了LDA的吉布斯抽样算法和变分EM算法在文本话题分析中的应用。

摘要由CSDN通过智能技术生成

统计学习方法-潜在狄利克雷分配（LDA）-读书笔记

1、前言

LDA是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示，每个话题由单词的一个多项分布表示，特别假设文本的话题分布的先验分布是狄利克雷分布，话题的单词分布的先验分布也是狄利克雷分布。LDA能更好解决过拟合现象。
LDA模型是含有隐变量的概率图模型。

2、狄利克雷分布

①多项分布
多项分布是一种多元离散随机变量的概率分布。
②狄利克雷分布
狄利克雷分布是一种多元连续随机变量的概率分布，是贝塔分布的扩展。在贝叶斯学习中，狄利克雷分布常作为多项分布的先验分布使用。
在这里插入图片描述

③二项分布和贝塔分布
二项分布是多项分布的特殊情况，贝塔分布是狄利克雷分布的特殊情况。
共轭先验
狄利克雷分布属于指数分布族
狄利克雷分布是多项分布的共轭先验。
贝叶斯学习中尝试用共轭分布。如果后验分布与先验分布属于同类，则先验分布与后验分布称为共轭分布。

3、潜在迪利克雷分配模型

LDA是文本集合的生成概率模型。模型假设话题由单词的多项分布表示，文本由话题的多项分布表示，单词分布和话题分布的先验分布都是狄利克雷分布。
LDA模型表示文本集合的自动生成过程，首先，基于单词分布的先验分布生成多个单词分布，及决定多个话题内容，之后，基于话题分布的先验分布生成多个话题分布，即决定多个文本内容；基于话题分布生成话题序列，基于单词分布生成单词。文本的单词序列是观测变量，文本的话题序列是隐变量，文本的话题分布和话题的单词分布也是隐变量。
利用LDA进行话题分析，就是对给定的文本集合，学习到每个文本的话题分布，以及每个话题的单词分布。

3.1LDA和PLSA

相同点是两者都假设话题是单词的多项分布，文本时话题的多项分布。
不同点是LDA使用狄利克雷分布作为先验分布，而PLSA不适用先验分布（或者假设先验分布是均匀分布）两者对文本生成过程有不同假设；学习过程LDA基于贝叶斯学习，PLSA基于极大似然估计。LDA优点是，使用先验概率分布，可以防止学习过程中产生的过拟合。

3.2生成过程

给定单词集合W，文本集合D，话题集合Z，狄利克雷分布的超参数 $\alpha 和\beta$
（1）生成话题的单词分布
随机生成K个话题的单词分布。过程如下，按照狄利克雷分布 $Dir(\beta)$ 随机生成一个参数向量 ${\psi}_k,{\psi}_k-Dir(\beta)$ 作为话题zk的单词分布p(w|zk)
（2）生成文本的话题分布
随机生成M个文本的话题分布。过程如下，按照迪利克雷分布 $Dir(\alpha)$ 随机生成一个参数向量 ${\theta}_m,{\theta}_m-Dir(\alpha)$