机器学习基础补习14---主题模型

今天写一下非常重要的内容:主题模型
先来回顾一下上一篇文章中的朴素贝叶斯部分
朴素贝叶斯的分析
(1)可以胜任许多文本分类问题
(2)无法理解语料中一词多义和多词一义的问题—它更像是词法分析,而非语义分析
(3)如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不确定性
(4)可以通过增加“主题”的方式,一定程度的解决上述问题:
a.一个词可能被映射到多个主题中:一词多义
b.多个词可能被映射到某个主题的概率很高:多词一义
从而引入网络模型,首先是最基本的主题模型:pLSA模型
pLSA模型
基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数
在这里插入图片描述
(1)D代表文档,Z代表主题(隐含类别),W代表单词
a. P ( d i ) P(d_i) P(di)表示文档 d i d_i di出现概率
b. P ( z k ∣ d i ) P(z_k|d_i) P(zkdi)表示文档 d i d_i di中主题 z k z_k zk的出现概率
c. P ( w j ∣ z k ) P(w_j|z_k) P(wjzk)表示给定主题 z k z_k zk出现单词 w j w_j wj的概率
(2)每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布
(3)整个文档的生成过程是这样的:
a.以 P ( d i ) P(d_i) P(di)的概率选中文档 d i d_i di
b.以 P ( z k ∣ d i ) P(z_k|d_i) P(zkdi)的概率选中主题 z k z_k zk
c.以 P ( w j ∣ z k ) P(w_j|z_k) P(wjzk)的概率产生一个单词 w j w_j wj
(4)观察数据为 ( d i ∣ w j ) (d_i|w_j) (diwj)对,主题 z k z_k zk是隐含变量
(5) ( d i ∣ w j ) (d_i|w_j) (diwj)的联合分布为:
在这里插入图片描述
(6)而 P ( w j ∣ z k ) , P ( z k ∣ d i ) P(w_j|z_k),P(z_k|d_i) P(wjzk),P(zkdi)对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标

极大似然估计: w j 在 d i w_j在d_i wjdi中出现的次数 n ( d i , w j ) n(d_i,w_j) n(di,wj)
在这里插入图片描述
目标函数分析
(1)观察数据为 ( d i , w j ) (d_i,w_j) (di,wj)对,主题 z k z_k zk是隐含变量
(2)目标函数:
在这里插入图片描述
(3)未知变量/自变量: P ( w j ∣ z k ) , P ( z k ∣ d i ) P(w_j|z_k),P(z_k|d_i) P(wjzk),P(zkdi)
(4)使用逐次逼近的办法:
a.假定 P ( z k ∣ d i ) , P ( w j ∣ z k ) P(z_k|d_i),P(w_j|z_k) P(zkdi),P(wjzk)已知,求隐含变量 z k z_k zk的后验概率;
b.在 ( d i , w j , z k ) (d_i,w_j,z_k) (di,wj,zk)已知的前提下,求关于参数 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk)的似然函数期望的极大值,得到最优解 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk),带入上一步,从而循环迭代
c.EM算法
求隐含变量主题 z k z_k zk的后验概率
(1)假定 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk)已知,求隐含变量 z k z_k zk的后验概率:
在这里插入图片描述
(2)在 ( d i , w j , z k ) (d_i,w_j,z_k) (di,wj,zk)已知的前提下,求关于参数 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk)的似然函数期望的极大值,得到最优解 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk),带入上一步,从而循环迭代

分析似然函数期望
( d i , w j , z k ) (d_i,w_j,z_k) (di,wj,zk)已知的前提下,求关于参数 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk)的似然函数期望的极大值,得到最优解 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk),带入上一步,从而循环迭代
在这里插入图片描述
完成目标函数的建立
关于参数 P ( z k ∣ d i ) 、 P ( w j ∣ z k ) P(z_k|d_i)、P(w_j|z_k) P(zkdi)P(wjzk)的函数E,并且,带有概率加和为1的约束条件:
在这里插入图片描述
显然,这是只有等式约束的求极值问题,使用Lagrange乘子法解决
目标函数的求解
Lagrange函数为:
在这里插入图片描述

求驻点:
在这里插入图片描述
分析第一个等式
在这里插入图片描述
同理分析第二个等式
求极值时的解—M-step:
在这里插入图片描述
别忘了E-step:
在这里插入图片描述
pLSA的总结
(1)pLSA应用于信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主体分布,使用EM算法来学习参数
(2)虽然推导略显复杂,但最终公式简洁清晰,很符合直观理解,需用心琢磨;此外,推导过程使用了EM算法,也是学习EM算法的重要素材

pLSA的进一步思考
(1)相对于“简单”的链状贝叶斯网络,可否给出“词”“主题”“文档”更细致的网络拓扑,形成更具一般性的模型?
(2)pLSA不需要先验信息即可完成自学习—这是它的优势。如果在特定的要求下,需要有先验知识的影响呢?
(3)答:LDA模型:a.三层结构的贝叶斯模型 b.需要超参数
在这里插入图片描述
LDA设计的主要问题
(1)共轭先验分布
(2)Dirichlet分布
(3)LDA模型:Gibbs采样算法学习参数
两种认识
(1)给定某系统的若干样本,求该系统的参数
(2)矩估计/MLE/MaxEnt/EM等:
a.假定参数是某个/某些未知的定值,求这些参数如何取值,能够使得某目标函数取极大/极小
b.频率学派
(3)贝叶斯模型:
a.假定参数本身是变化的,服从某个分布。求在这个分布的约束下使得某目标函数极大/极小
b.贝叶斯学派
频率学派和贝叶斯学派
(1)无高低好坏之分,只是认识自然的手段。只是在当前人们掌握的数学工具和需解决的实践问题中,贝叶斯学派的理论体系往往能够比较好的解释目标函数、分析相互关系等。
在以前的文章中,大多是频率学派的思想,下面的推理,使用贝叶斯学派的观点
(2)思考:大数据
频率学派对贝叶斯学派一次强有力的逆袭
贝叶斯公式 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
(1)给定某系统的若干样本x,计算该系统的参数,即:
P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)} P(θx)=P(x)P(xθ)P(θ)
a. P ( θ ) : P(\theta): P(θ):没有数据支持下, θ \theta θ发生的概率:先验概率
b. P ( θ ∣ x ) : P(\theta|x): P(θx):在数据x的支持下, θ \theta θ发生的概率:后验概率
c. P ( x ∣ θ ) : P(x|\theta): P(xθ):给定某参数 θ \theta θ的概率分布:似然函数
(2)例如:
a.在没有任何信息的前提下,猜测某人姓氏,先猜李王张刘…猜对的概率相对较大:先验概率
b.若知道某人来自“牛家村”,则他姓牛的概率很大;后验概率—但不排除他姓郭、杨等情况
共轭先验分布
(1)由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子,由于不关心 P ( θ ∣ x ) P(\theta|x) P(θx)的具体值,只考察 θ \theta θ取何值时后验概率 P ( θ ∣ x ) P(\theta|x) P(θx)最大,则可将分母省去:
在这里插入图片描述
(2)在贝叶斯概率结论中,如果后验概率 P ( θ ∣ x ) P(\theta|x) P(θx)和先验概率 p ( θ ) p(\theta) p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布

线性回归的复杂度惩罚因子
(1)线性回归的目标函数为:
在这里插入图片描述
(2)将目标函数增加平方和损失:
在这里插入图片描述
(3)本质即为假定参数 θ \theta θ服从高斯分布

复习:二项分布的极大似然那估计
(1)投硬币试验中,进行N次独立试验,n次朝上,N-n次朝下
(2)假定朝上的概率为p,使用对数似然函数作为目标函数:
在这里插入图片描述
二项分布举例
(1)在校门口统计一定时间段内出入的男女生数目分别为 N B 和 N G N_B和N_G NBNG,估算该校男女生比例
(2)若观察到4个女生和1个男生,可以得出该校女生的比例是80%吗?
在这里插入图片描述
(3)修正公式:
在这里插入图片描述
上述过程的理论解释
(1)投掷一个非均匀硬币,可以使用参数为 θ \theta θ的伯努利模型, θ \theta θ为硬币为正面的概率,那么结果x的分布形式为:
在这里插入图片描述
(2)两点分布/二项分布的共轭先验是Beta分布,它具有两个参数α和B,Beta分布形式为:
在这里插入图片描述
先验概率和后验概率的关系
(1)根据似然和先验:
在这里插入图片描述
(2)计算后验概率:
在这里插入图片描述
(3)该后验概率的形式与先验概率的形式完全一样—后验概率是参数为 ( X + α , X + β ) (X+α,X+\beta) X+αX+β的另一个Beta分布,即:伯努利分布的共轭先验是Beta分布
共轭先验的直接推广
(1)从2到K:
a.二项分布—多项分布
Beta分布—Dirichlet分布
引: Γ \Gamma Γ函数
(1) Γ \Gamma Γ函数是阶乘在实数上的推广
在这里插入图片描述
在这里插入图片描述
Dirichlet分布
(1)参照Beta分布的定义:
在这里插入图片描述
(2)Dirichlet分布的定义:
在这里插入图片描述
Dirichlet分布分析
在这里插入图片描述
(1)α是参数向量,共K个
(2)定义在 x 1 , x 2 . . . x k x_1,x_2...x_k x1,x2...xk维上
在这里插入图片描述
(3)α的取值对Dir(p|α)有什么影响?
对称Dirichlet分布
在这里插入图片描述
对称*Dirichlet分布的参数分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
参数α对Dirichlet分布的影响
在这里插入图片描述
ok,暂且到这里吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值