【机器学习】12、主题模型

这里写图片描述

一、pLSA

这里写图片描述

每个文档都会在主题上有一个分布,每个主题在各个词上也有一个分布

这里写图片描述

这里写图片描述

p ( w j ) = ∑ k [ p ( w j ∣ z k ) ∗ p ( z k ) ] p(wj)=\sum_k[p(wj|zk)*p(zk)] p(wj)=k[p(wjzk)p(zk)]只是将 p ( w j ) p(wj) p(wj)变成了 p ( w j ∣ d i ) p(wj|di) p(wjdi) p ( w j ∣ z k ) p(wj|zk) p(wjzk)未变的原因是一旦给定了z,d和w就是独立,也就是 p ( w j ∣ z k ) = p ( w j ∣ z k , d i ) p(wj|zk)=p(wj|zk,di) p(wjzk)=p(wjzk,di)就省略掉了。

这里写图片描述
上式是关于w,zk,di的部分可观测的函数,所以用EM算法求解

这里写图片描述

求给定样本之下的主题的后验概率:

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

pLSA的进一步思考:

原来相当于是一个二层的模型,只要文档和词给定了,得到的结果就是一样的,不需要先验信息就可以完成学习,既是优势也是劣势。

这里写图片描述

二、LDA模型

主要问题:

这里写图片描述

这里写图片描述

贝叶斯模型:假设参数是不断变化的,参数本身也服从某个分布,贝叶斯学派能够得到一个稍微好点的目标函数,也能比较方便的分析相关关系。

这里写图片描述

大数据的情况是频率学派的一个逆袭,因为在数据很多的情况下,我们就不需要对其先验进行猜测了,直接利用极大似然估计就有较好的效果。

贝叶斯学派说,我可以用小样本来做事情。

这里写图片描述

如果认为所有的先验 P ( θ ) P(\theta) P(θ)都是一样的话,那就退化成了极大似然估计。

共轭分布:两者满足同样的分布率

这里写图片描述

为什么要提出共轭先验分布:

这里写图片描述

这里写图片描述

平方和损失的正则化,就是假定参数theta服从高斯分布的贝叶斯学派的思想,

这里写图片描述

因为次数已知,所以是关于p的函数h§,求偏导=0,可得朝上的概率p,频率的程度是概率。

这里写图片描述
修正,更符合常理,但是5和10是什么?为什么可以加上,背后的理论是什么?

理论解释:

这里写图片描述

这里写图片描述

这里写图片描述

贝叶斯理论,可以使得在小样本的情况下是更合理的,+5和+10是防止过拟合。

共轭先验的推广:

这里写图片描述

多项分布的先验分布是狄利克雷分布

狄利克雷函数:

这里写图片描述

这里写图片描述

这里写图片描述

一般选定alpha是相等的,因为没有先验信息,退化成均匀分布(对称狄利克雷分布)。

这里写图片描述

这里写图片描述

  • alpha=1,平的,均匀分布

  • alpha<1,图中的情况(alpha=0.3),取某一个维度的概率是最高的,取三个都相等的概率是最低的;

  • alpha>1,图中情况的反向(也就是类似于锅盖),取某一个维度的概率是最低的,取三个维度都相等的概率是最高的。

p1,p2,p3…就是我们要求的概率,而关于概率我们做了一个超参数alpha,比如x1=x2=0的点,此时x3等于某个值,该值最大,也就是该点的概率值大,

x1+x2+x3=1,因此没必要画三个参数的图像,因为x3=1-x2-x1,也就是取得x1=a,x2=b的概率就是纵轴,即三维图是(x1,x2,ln(p(x1,x2)))

这里写图片描述

利于做收敛,词汇集中到某个点去,alpha越小,说明主题越鲜明;

alpha=1时,表示每个主题被取到的概率是一样的,说明主题最不鲜明。

当alpha继续增大的时候,假如到达了10,相当于这个文档的主题是相等的。

当我们样本数量足够大的时候,alpha的影响已经不太大了,先验的影响已经不大了。

LDA:

m个文章是样本,K个主题是我们给定的

比如第一个文章涉及了70%的武侠,30%的爱情,这就是主题分布,主题分布在每个主题上都可能发生,所以是一个多项分布,主题的参数服从狄利克雷分布,该分布的参数即为alpha。

武侠这个主题,可能会涉及到降龙十八掌、段誉、大理等,任何一个主题在词典的所有词上都有一个取到的概率,每个主题有各自特定的词分布,词分布也是多项分布,该多项分布的参数服从狄利克雷分布,参数为beta。

这里写图片描述

这里写图片描述

有K个词分布,每个词分布是一个V维的向量,

利用狄利克雷分布的参数$\alpha \implies 决定一个主题分布 决定一个主题分布 决定一个主题分布\theta_m \implies 利用该主题分布采样出来一个主题 利用该主题分布采样出来一个主题 利用该主题分布采样出来一个主题z_{m,n}$(第m个文档的第n个词应该属于哪个主题)

利用狄利克雷分布的参数 β    ⟹    \beta \implies β采样一个词分布 ϕ k \phi_k ϕk(有k个主题就有k个词分布,每个词分布是v维的)

利用采样得到的主题 z m , n z_{m,n} zm,n和该主题对应的词分布 ϕ k \phi_k ϕk来共同得到一个可观测的词,也就是第m个文档的第n个词。

这里写图片描述

这里写图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值