今天写一下非常重要的内容:主题模型
先来回顾一下上一篇文章中的朴素贝叶斯部分
朴素贝叶斯的分析
(1)可以胜任许多文本分类问题
(2)无法理解语料中一词多义和多词一义的问题—它更像是词法分析,而非语义分析
(3)如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不确定性
(4)可以通过增加“主题”的方式,一定程度的解决上述问题:
a.一个词可能被映射到多个主题中:一词多义
b.多个词可能被映射到某个主题的概率很高:多词一义
从而引入网络模型,首先是最基本的主题模型:pLSA模型
pLSA模型
基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数
(1)D代表文档,Z代表主题(隐含类别),W代表单词
a.
P
(
d
i
)
P(d_i)
P(di)表示文档
d
i
d_i
di出现概率
b.
P
(
z
k
∣
d
i
)
P(z_k|d_i)
P(zk∣di)表示文档
d
i
d_i
di中主题
z
k
z_k
zk的出现概率
c.
P
(
w
j
∣
z
k
)
P(w_j|z_k)
P(wj∣zk)表示给定主题
z
k
z_k
zk出现单词
w
j
w_j
wj的概率
(2)每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布
(3)整个文档的生成过程是这样的:
a.以
P
(
d
i
)
P(d_i)
P(di)的概率选中文档
d
i
d_i
di
b.以
P
(
z
k
∣
d
i
)
P(z_k|d_i)
P(zk∣di)的概率选中主题
z
k
z_k
zk
c.以
P
(
w
j
∣
z
k
)
P(w_j|z_k)
P(wj∣zk)的概率产生一个单词
w
j
w_j
wj
(4)观察数据为
(
d
i
∣
w
j
)
(d_i|w_j)
(di∣wj)对,主题
z
k
z_k
zk是隐含变量
(5)
(
d
i
∣
w
j
)
(d_i|w_j)
(di∣wj)的联合分布为:
(6)而
P
(
w
j
∣
z
k
)
,
P
(
z
k
∣
d
i
)
P(w_j|z_k),P(z_k|d_i)
P(wj∣zk),P(zk∣di)对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标
极大似然估计:
w
j
在
d
i
w_j在d_i
wj在di中出现的次数
n
(
d
i
,
w
j
)
n(d_i,w_j)
n(di,wj)
目标函数分析
(1)观察数据为
(
d
i
,
w
j
)
(d_i,w_j)
(di,wj)对,主题
z
k
z_k
zk是隐含变量
(2)目标函数:
(3)未知变量/自变量:
P
(
w
j
∣
z
k
)
,
P
(
z
k
∣
d
i
)
P(w_j|z_k),P(z_k|d_i)
P(wj∣zk),P(zk∣di)
(4)使用逐次逼近的办法:
a.假定
P
(
z
k
∣
d
i
)
,
P
(
w
j
∣
z
k
)
P(z_k|d_i),P(w_j|z_k)
P(zk∣di),P(wj∣zk)已知,求隐含变量
z
k
z_k
zk的后验概率;
b.在
(
d
i
,
w
j
,
z
k
)
(d_i,w_j,z_k)
(di,wj,zk)已知的前提下,求关于参数
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk)的似然函数期望的极大值,得到最优解
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk),带入上一步,从而循环迭代
c.EM算法
求隐含变量主题
z
k
z_k
zk的后验概率
(1)假定
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk)已知,求隐含变量
z
k
z_k
zk的后验概率:
(2)在
(
d
i
,
w
j
,
z
k
)
(d_i,w_j,z_k)
(di,wj,zk)已知的前提下,求关于参数
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk)的似然函数期望的极大值,得到最优解
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk),带入上一步,从而循环迭代
分析似然函数期望
在
(
d
i
,
w
j
,
z
k
)
(d_i,w_j,z_k)
(di,wj,zk)已知的前提下,求关于参数
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk)的似然函数期望的极大值,得到最优解
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk),带入上一步,从而循环迭代
完成目标函数的建立
关于参数
P
(
z
k
∣
d
i
)
、
P
(
w
j
∣
z
k
)
P(z_k|d_i)、P(w_j|z_k)
P(zk∣di)、P(wj∣zk)的函数E,并且,带有概率加和为1的约束条件:
显然,这是只有等式约束的求极值问题,使用Lagrange乘子法解决
目标函数的求解
Lagrange函数为:
求驻点:
分析第一个等式
同理分析第二个等式
求极值时的解—M-step:
别忘了E-step:
pLSA的总结
(1)pLSA应用于信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主体分布,使用EM算法来学习参数
(2)虽然推导略显复杂,但最终公式简洁清晰,很符合直观理解,需用心琢磨;此外,推导过程使用了EM算法,也是学习EM算法的重要素材
pLSA的进一步思考
(1)相对于“简单”的链状贝叶斯网络,可否给出“词”“主题”“文档”更细致的网络拓扑,形成更具一般性的模型?
(2)pLSA不需要先验信息即可完成自学习—这是它的优势。如果在特定的要求下,需要有先验知识的影响呢?
(3)答:LDA模型:a.三层结构的贝叶斯模型 b.需要超参数
LDA设计的主要问题
(1)共轭先验分布
(2)Dirichlet分布
(3)LDA模型:Gibbs采样算法学习参数
两种认识
(1)给定某系统的若干样本,求该系统的参数
(2)矩估计/MLE/MaxEnt/EM等:
a.假定参数是某个/某些未知的定值,求这些参数如何取值,能够使得某目标函数取极大/极小
b.频率学派
(3)贝叶斯模型:
a.假定参数本身是变化的,服从某个分布。求在这个分布的约束下使得某目标函数极大/极小
b.贝叶斯学派
频率学派和贝叶斯学派
(1)无高低好坏之分,只是认识自然的手段。只是在当前人们掌握的数学工具和需解决的实践问题中,贝叶斯学派的理论体系往往能够比较好的解释目标函数、分析相互关系等。
在以前的文章中,大多是频率学派的思想,下面的推理,使用贝叶斯学派的观点
(2)思考:大数据
频率学派对贝叶斯学派一次强有力的逆袭
贝叶斯公式
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
(1)给定某系统的若干样本x,计算该系统的参数,即:
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
P
(
θ
)
P
(
x
)
P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}
P(θ∣x)=P(x)P(x∣θ)P(θ)
a.
P
(
θ
)
:
P(\theta):
P(θ):没有数据支持下,
θ
\theta
θ发生的概率:先验概率
b.
P
(
θ
∣
x
)
:
P(\theta|x):
P(θ∣x):在数据x的支持下,
θ
\theta
θ发生的概率:后验概率
c.
P
(
x
∣
θ
)
:
P(x|\theta):
P(x∣θ):给定某参数
θ
\theta
θ的概率分布:似然函数
(2)例如:
a.在没有任何信息的前提下,猜测某人姓氏,先猜李王张刘…猜对的概率相对较大:先验概率
b.若知道某人来自“牛家村”,则他姓牛的概率很大;后验概率—但不排除他姓郭、杨等情况
共轭先验分布
(1)由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子,由于不关心
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x)的具体值,只考察
θ
\theta
θ取何值时后验概率
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x)最大,则可将分母省去:
(2)在贝叶斯概率结论中,如果后验概率
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x)和先验概率
p
(
θ
)
p(\theta)
p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布
线性回归的复杂度惩罚因子
(1)线性回归的目标函数为:
(2)将目标函数增加平方和损失:
(3)本质即为假定参数
θ
\theta
θ服从高斯分布
复习:二项分布的极大似然那估计
(1)投硬币试验中,进行N次独立试验,n次朝上,N-n次朝下
(2)假定朝上的概率为p,使用对数似然函数作为目标函数:
二项分布举例
(1)在校门口统计一定时间段内出入的男女生数目分别为
N
B
和
N
G
N_B和N_G
NB和NG,估算该校男女生比例
(2)若观察到4个女生和1个男生,可以得出该校女生的比例是80%吗?
(3)修正公式:
上述过程的理论解释
(1)投掷一个非均匀硬币,可以使用参数为
θ
\theta
θ的伯努利模型,
θ
\theta
θ为硬币为正面的概率,那么结果x的分布形式为:
(2)两点分布/二项分布的共轭先验是Beta分布,它具有两个参数α和B,Beta分布形式为:
先验概率和后验概率的关系
(1)根据似然和先验:
(2)计算后验概率:
(3)该后验概率的形式与先验概率的形式完全一样—后验概率是参数为
(
X
+
α
,
X
+
β
)
(X+α,X+\beta)
(X+α,X+β)的另一个Beta分布,即:伯努利分布的共轭先验是Beta分布
共轭先验的直接推广
(1)从2到K:
a.二项分布—多项分布
Beta分布—Dirichlet分布
引:
Γ
\Gamma
Γ函数
(1)
Γ
\Gamma
Γ函数是阶乘在实数上的推广
Dirichlet分布
(1)参照Beta分布的定义:
(2)Dirichlet分布的定义:
Dirichlet分布分析
(1)α是参数向量,共K个
(2)定义在
x
1
,
x
2
.
.
.
x
k
x_1,x_2...x_k
x1,x2...xk维上
(3)α的取值对Dir(p|α)有什么影响?
对称Dirichlet分布
对称*Dirichlet分布的参数分析
参数α对Dirichlet分布的影响
ok,暂且到这里吧