(注:博主只是笔记的搬运工。以下内容大多来自我们老师——西安交通大学刘佳鹏老师,有时再加一点点博主自己的思考)
1 简介
概率潜在语义分析(probabilistic latent semantic analysis,PLSA),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。
包含以下特点:
- 用隐变量表示话题
- 整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程
- 每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析最初用于文本数据挖掘,后来扩展到其他领域。
2 生成模型
2.1模型要点:
- 每个文本d生成话题z的概率P(z|d),这意味着一个文本的内容由其相关话题决定
- 每个话题z生成单词w的概率P(w|z),这意味着一个话题的内容由其相关单词决定
2.2生成模型步骤:
生成模型通过以下步骤生成文本-单词共现数据:
(1)依据概率分布P(d),从文本(指标)集合中随机选取一个文本d,共生成N个文本;
(2)在文本d给定的条件下,依据条件概率分布P(z|d),从话题集合随机选取一个话题z,共生成L个话题
(3)在话题z给定条件下,依据条件概率分布P(w|z),从单词集合中随机选取一个单词w
2.3模型说明:
- 生成模型中,单词变量w与文本变量d是观测变量,话题变量z是隐变量
- 模型生成的是单词-话题-文本三元组(w,z,d)的集合,但观测到的是单词-文本二元组(w,d)的集合
- 观测数据表示为单词-文本矩阵T的形式,矩阵T的行表示单词,列表示文本,元素表示单词-文本对(w,d)出现次数。
生成模型关系可见下图:
生成模型属于概率有向图模型,可以用有向图表示。
实心圆表示观测变量,空心圆表示隐变量,箭头表示概率依存关系,方框表示多次重复,方框内数字表示重复次数。文本变量d是一个观测变量,话题变量z是一个隐变量,单词变量w是一个观测变量。
从数据的生成过程可以推出,文本-单词共现数据T的生成概率为所有单词-文本对(w,d)的生成概率的乘积,
这里n(w,d)表示(w,d)的出现次数,单词-文本对出现的总次数是N*L
2.4模型参数推导:
模型通过引入隐变量,实现了降维:由M*N个参数→N*K+M*K个参数。
使用极大似然估计法对模型参数进行估计,已知d,w是可观测的,即P(w,d)可知。下面,通过4个阶段介绍具体计算方式:
准备工作:
对每个单词-文本对(w,d)的生成概率由以下公式决定:
①
其中第三行到第四行等号是由于条件独立性假设,当z给定时,单词w与文本d条件独立,即
1.建立对数似然函数
得到每个单词-文本对的概率公式后,接下来写出所有单词-文本对(w,d)的生成概率的似然函数:(M,N,K分别表示单词数,文本数,话题数)
那么其对数似然函数为:
第二行为将①式代入得到。
2.对进行计算
令,参数
中,j=1,2...,N,且有约束
考虑到约束,利用拉格朗日乘子法将F写为其拉格朗日函数:
对关于
求导置0,得到
取值
注意:第一行中j为固定值,为关于某一具体求导(相当于令N个这样的式子等于0),因此求导结果中不出现
;
表示的式中,分子代表的是文本j中所有单词的个数,分母代表所有文本中所有单词个数。
通过以上计算过程,得到表示方法。然而在现实应用中,计算
意义往往并不大,
和
,才是我们所更为关心的。
3.对进行迭代计算
主要利用了EM算法,对参数更新进行求解:
首先将使用到的参数列举如下:
(1)②
(2)③
约束条件为:
(1)
(2)
下面开始使用EM算法:
E步:计算Q函数(利用Jensen不等式,具体可参照EM算法)
Q函数为完全数据的对数似然函数对不完全数据的条件分布的期望,针对概率潜在语义分析的生成模型,Q函数是:
其中,
(推导时可以先将当做已知,利用贝叶斯推导后再将其加入式子中;分母是
的展开,用l是为了避免造成与分子上k混淆)
对于k=1,2,...,K;i=1,2,...,M;j=1,2,...N分别计算,相当于一共计算K*M*N个
M步:极大化Q函数
通过约束最优化求解Q函数极大值,这时和
是变量。考虑②和③约束,定义拉格朗日函数
:
其中,是E步中已计算出的
为求极值,分别对变量和
求导
(1)对
求导:
其中,第2到3行推导通过代入得到。第3到4行推导是将最后一行分母中求和变为m=1是为了避免与分子上的i混淆。
对于所有i=1,2,...M;k=1,2,...K重复上述步骤,计算M*K个
(2)对
求导
推导方式同理,
第三行使用了加法交换律和结合律
对于所有k=1,2,...K;j=1,2,...N重复上述步骤,计算K*N个
使用EM算法进行迭代,即可计算出最终参数