机器学习基础补习14---主题模型

最新推荐文章于 2023-05-12 23:20:03 发布

多欢喜 

最新推荐文章于 2023-05-12 23:20:03 发布

阅读量170

点赞数

分类专栏：机器学习基础补习文章标签：机器学习人工智能深度学习 python

本文链接：https://blog.csdn.net/duohuanxi/article/details/113081739

版权

机器学习基础补习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

今天写一下非常重要的内容：主题模型
先来回顾一下上一篇文章中的朴素贝叶斯部分
朴素贝叶斯的分析
（1）可以胜任许多文本分类问题
（2）无法理解语料中一词多义和多词一义的问题—它更像是词法分析，而非语义分析
（3）如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不确定性
（4）可以通过增加“主题”的方式，一定程度的解决上述问题：
a.一个词可能被映射到多个主题中：一词多义
b.多个词可能被映射到某个主题的概率很高：多词一义
从而引入网络模型，首先是最基本的主题模型：pLSA模型
pLSA模型
基于概率统计的pLSA模型（probabilistic Latent Semantic Analysis，概率隐语义分析），增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型参数
在这里插入图片描述
（1）D代表文档，Z代表主题（隐含类别），W代表单词
a. $P(d_i)$ 表示文档 $d_i$ 出现概率
b. $P(z_k|d_i)$ 表示文档 $d_i$ 中主题 $z_k$ 的出现概率
c. $P(w_j|z_k)$ 表示给定主题 $z_k$ 出现单词 $w_j$ 的概率
（2）每个主题在所有词项上服从多项分布，每个文档在所有主题上服从多项分布
（3）整个文档的生成过程是这样的：
a.以 $P(d_i)$ 的概率选中文档 $d_i$
b.以 $P(z_k|d_i)$ 的概率选中主题 $z_k$
c.以 $P(w_j|z_k)$ 的概率产生一个单词 $w_j$
（4）观察数据为 $d_i|w_j)$ 对，主题 $z_k$ 是隐含变量
（5） $d_i|w_j)$ 的联合分布为：
在这里插入图片描述
（6）而 $P(w_j|z_k),P(z_k|d_i)$ 对应了两组多项分布，而计算每个文档的主题分布，就是该模型的任务目标

求驻点：
在这里插入图片描述
分析第一个等式

同理分析第二个等式
求极值时的解—M-step：

别忘了E-step：

pLSA的总结
（1）pLSA应用于信息检索、过滤、自然语言处理等领域，pLSA考虑到词分布和主体分布，使用EM算法来学习参数
（2）虽然推导略显复杂，但最终公式简洁清晰，很符合直观理解，需用心琢磨；此外，推导过程使用了EM算法，也是学习EM算法的重要素材

pLSA的进一步思考
（1）相对于“简单”的链状贝叶斯网络，可否给出“词”“主题”“文档”更细致的网络拓扑，形成更具一般性的模型？
（2）pLSA不需要先验信息即可完成自学习—这是它的优势。如果在特定的要求下，需要有先验知识的影响呢？
（3）答：LDA模型：a.三层结构的贝叶斯模型 b.需要超参数
在这里插入图片描述
LDA设计的主要问题
（1）共轭先验分布
（2）Dirichlet分布
（3）LDA模型：Gibbs采样算法学习参数
两种认识
（1）给定某系统的若干样本，求该系统的参数
（2）矩估计/MLE/MaxEnt/EM等：
a.假定参数是某个/某些未知的定值，求这些参数如何取值，能够使得某目标函数取极大/极小
b.频率学派
（3）贝叶斯模型：
a.假定参数本身是变化的，服从某个分布。求在这个分布的约束下使得某目标函数极大/极小
b.贝叶斯学派
频率学派和贝叶斯学派
（1）无高低好坏之分，只是认识自然的手段。只是在当前人们掌握的数学工具和需解决的实践问题中，贝叶斯学派的理论体系往往能够比较好的解释目标函数、分析相互关系等。
在以前的文章中，大多是频率学派的思想，下面的推理，使用贝叶斯学派的观点
（2）思考：大数据
频率学派对贝叶斯学派一次强有力的逆袭
贝叶斯公式 $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
(1)给定某系统的若干样本x，计算该系统的参数，即：
$P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}$
a. $P(\theta):$ 没有数据支持下， $\theta$ 发生的概率：先验概率
b. $P(\theta|x):$ 在数据x的支持下， $\theta$ 发生的概率：后验概率
c. $P(x|\theta):$ 给定某参数 $\theta$ 的概率分布：似然函数
（2）例如：
a.在没有任何信息的前提下，猜测某人姓氏，先猜李王张刘…猜对的概率相对较大：先验概率
b.若知道某人来自“牛家村”，则他姓牛的概率很大；后验概率—但不排除他姓郭、杨等情况
共轭先验分布
（1）由于x为给定样本，P(x)有时被称为“证据”，仅仅是归一化因子，由于不关心 $P(\theta|x)$ 的具体值，只考察 $\theta$ 取何值时后验概率 $P(\theta|x)$ 最大，则可将分母省去：
在这里插入图片描述
（2）在贝叶斯概率结论中，如果后验概率 $P(\theta|x)$ 和先验概率 $p(\theta)$ 满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布

线性回归的复杂度惩罚因子
（1）线性回归的目标函数为：
在这里插入图片描述
（2）将目标函数增加平方和损失：

（3）本质即为假定参数 $\theta$ 服从高斯分布

复习：二项分布的极大似然那估计
（1）投硬币试验中，进行N次独立试验，n次朝上，N-n次朝下
（2）假定朝上的概率为p，使用对数似然函数作为目标函数：
在这里插入图片描述
二项分布举例
（1）在校门口统计一定时间段内出入的男女生数目分别为 $N_B和N_G$ ，估算该校男女生比例
（2）若观察到4个女生和1个男生，可以得出该校女生的比例是80%吗？

（3）修正公式：

上述过程的理论解释
（1）投掷一个非均匀硬币，可以使用参数为 $\theta$ 的伯努利模型， $\theta$ 为硬币为正面的概率，那么结果x的分布形式为:
在这里插入图片描述
（2）两点分布/二项分布的共轭先验是Beta分布，它具有两个参数α和B，Beta分布形式为：

先验概率和后验概率的关系
（1）根据似然和先验：

（2）计算后验概率：

（3）该后验概率的形式与先验概率的形式完全一样—后验概率是参数为 $（X+α，X+\beta）$ 的另一个Beta分布，即：伯努利分布的共轭先验是Beta分布
共轭先验的直接推广
（1）从2到K：
a.二项分布—多项分布
Beta分布—Dirichlet分布
引： $\Gamma$ 函数
（1） $\Gamma$ 函数是阶乘在实数上的推广
在这里插入图片描述

Dirichlet分布
（1）参照Beta分布的定义：

（2）Dirichlet分布的定义：

Dirichlet分布分析

（1）α是参数向量，共K个
（2）定义在 $x_1,x_2...x_k$ 维上

（3）α的取值对Dir（p|α）有什么影响？
对称Dirichlet分布
在这里插入图片描述
对称*Dirichlet分布的参数分析

参数α对Dirichlet分布的影响

ok，暂且到这里吧

多欢喜 

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础补习14---主题模型

今天写一下非常重要的内容：主题模型先来回顾一下上一篇文章中的朴素贝叶斯部分朴素贝叶斯的分析（1）可以胜任许多文本分类问题（2）无法理解语料中一词多义和多词一义的问题—它更像是词法分析，而非语义分析（3）如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不确定性（4）可以通过增加“主题”的方式，一定程度的解决上述问题：a.一个词可能被映射到多个主题中：一词多义b.多个词可能被映射到某个主题的概率很高：多词一义从而引入网络模型，首先是最基本的主题模型：pLSA模型pLS
复制链接

扫一扫