统计学习方法-潜在狄利克雷分配(LDA)-读书笔记
1、前言
LDA是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。LDA能更好解决过拟合现象。
LDA模型是含有隐变量的概率图模型。
2、狄利克雷分布
①多项分布
多项分布是一种多元离散随机变量的概率分布。
②狄利克雷分布
狄利克雷分布是一种多元连续随机变量的概率分布,是贝塔分布的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。
③二项分布和贝塔分布
二项分布是多项分布的特殊情况,贝塔分布是狄利克雷分布的特殊情况。
共轭先验
狄利克雷分布属于指数分布族
狄利克雷分布是多项分布的共轭先验。
贝叶斯学习中尝试用共轭分布。如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布。
3、潜在迪利克雷分配模型
LDA是文本集合的生成概率模型。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。
LDA模型表示文本集合的自动生成过程,首先,基于单词分布的先验分布生成多个单词分布,及决定多个话题内容,之后,基于话题分布的先验分布生成多个话题分布,即决定多个文本内容;基于话题分布生成话题序列,基于单词分布生成单词。文本的单词序列是观测变量,文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。
利用LDA进行话题分析,就是对给定的文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。
3.1LDA和PLSA
相同点是两者都假设话题是单词的多项分布,文本时话题的多项分布。
不同点是LDA使用狄利克雷分布作为先验分布,而PLSA不适用先验分布(或者假设先验分布是均匀分布)两者对文本生成过程有不同假设;学习过程LDA基于贝叶斯学习,PLSA基于极大似然估计。LDA优点是,使用先验概率分布,可以防止学习过程中产生的过拟合。
3.2生成过程
给定单词集合W,文本集合D,话题集合Z,狄利克雷分布的超参数 α 和 β \alpha 和\beta α和β
(1)生成话题的单词分布
随机生成K个话题的单词分布。过程如下,按照狄利克雷分布 D i r ( β ) Dir(\beta) Dir(β)随机生成一个参数向量 ψ k , ψ k − D i r ( β ) {\psi}_k,{\psi}_k-Dir(\beta) ψk,ψk−Dir(β)作为话题zk的单词分布p(w|zk)
(2)生成文本的话题分布
随机生成M个文本的话题分布。过程如下,按照迪利克雷分布 D i r ( α ) Dir(\alpha) Dir(α)随机生成一个参数向量 θ m , θ m − D i r ( α ) {\theta}_m,{\theta}_m-Dir(\alpha) θm,θm−Di