随机过程与概率图模型
文章平均质量分 93
关于随机过程与概率图模型的基础理论学习笔记
tzc_fly
2017-2021:华中科技大学本科,2021-至今:中山大学博士
展开
-
第二十三课.扩散模型
近几年扩散模型不断涌现,但都来源于一个基础模型:DDPM(Denoising Diffusion Probabilistic Model)。扩散模型本质是生成模型,过去我们常用的生成模型包括GAN和VAE,利用随机噪声生成图像样本。GAN和VAE有一个共同点,它们都是使用一个网络直接一步式生成结果,如果要获得好的生成结果,不得不追求更复杂的网络,但是这会导致训练困难。相反,DDPM中包含了一个新的想法,对于前向过程,我们对x0x_{0}x0逐步加噪声,得到一系列的数据xt−1,x。原创 2022-11-03 19:07:26 · 1676 阅读 · 0 评论 -
第二十二课.条件随机场
目录HMM中的问题线性链条件随机场线性链条件随机场的概率与特征函数HMM中的问题在之前的HMM中,使用了两个假设:第一个假设:观测独立性假设。观测变量xtx_{t}xt的取值只与对应的隐变量yty_{t}yt相关,而与其他的观测变量,隐变量均无关;第二个假设:齐次马尔科夫假设。隐变量yty_{t}yt的取值只与前一时刻的yt−1y_{t-1}yt−1相关,而与其他的观测变量,隐变量均无关。这两个假设在很大程度上帮助了模型的化简,但对于某些情况,两个假设使得模型不符合任务场景。比如词性原创 2021-06-06 17:18:37 · 346 阅读 · 0 评论 -
第二十一课.粒子滤波器
目录粒子滤波问题引入采样获取数值解粒子滤波问题引入卡尔曼滤波基于"高斯噪声+线性"的假设,由于高斯分布的特性,我们可以得到解析解,如果更一般化,变量之间服从任意关系,则称为粒子滤波。粒子滤波的关注问题同样是p(zt∣x1,x2,...,xt)p(z_{t}|x_{1},x_{2},...,x_{t})p(zt∣x1,x2,...,xt)的分布,回顾卡尔曼滤波器中介绍的解决方案:predict,利用t−1t-1t−1时刻的滤波结果估计ztz_{t}zt作为先验概率:p(zt∣x1,x2,原创 2021-05-30 14:35:34 · 354 阅读 · 0 评论 -
第二十课.卡尔曼滤波器
目录卡尔曼滤波器的参数滤波问题的解决方案卡尔曼滤波器的参数首先回顾卡尔曼滤波的概率图:基于之前内容,卡尔曼滤波器是一种动态图模型,除了遵循齐次马尔科夫假设和观测独立性假设外,卡尔曼滤波器还遵循ZtZ_{t}Zt和Zt−1Z_{t-1}Zt−1之间,XtX_{t}Xt和ZtZ_{t}Zt之间的线性关系:Zt=AZt−1+B+εZ_{t}=AZ_{t-1}+B+\varepsilonZt=AZt−1+B+εXt=CZt+D+δX_{t}=CZ_{t}+D+\deltaXt=CZt+D+δ原创 2021-05-27 00:00:35 · 240 阅读 · 0 评论 -
第十九课.隐马尔科夫模型
目录隐马尔科夫模型的结构马尔科夫链与隐马尔科夫模型实例HMM的要素模型的性质HMM的状态解码隐马尔科夫模型的结构马尔科夫链与隐马尔科夫模型隐马尔科夫模型的全称为 Hidden Markov Model(HMM),这是一种统计模型,广泛应用于语音识别,词性自动标注等问题。马尔科夫链(回顾第十四课-马尔科夫链)与HMM的差距体现于Hidden,在这个模型中,首先由一个隐藏的马尔科夫链随机生成一个状态随机序列,再由状态随机序列中的每一个状态对应生成各自的观测,由这些观测构成一个观测随机序列。实例为了清晰原创 2021-05-22 16:19:52 · 447 阅读 · 1 评论 -
第十八课.动态图模型
目录动态图模型的共同特征模型间的区别动态图模型的重点问题动态图模型的共同特征关于贝叶斯网络的经典实例:隐马尔科夫模型,卡尔曼滤波器,粒子滤波器;这三个有向图具有一个统一的名称:动态图模型,并且它们具有通用的概率图表达形式:从中可以明显发现,在上面的概率图中有几个重要的元素:第一:在这个模型中,有观测变量XXX,隐藏变量ZZZ(代表隐含状态);第二:模型中具有时间信息;隐马尔科夫模型,卡尔曼滤波器,粒子滤波器这三种模型均具备以下两个共同的假设:隐变量序列ZZZ的齐次马尔科夫假设:即Zt+原创 2021-05-21 14:54:21 · 934 阅读 · 0 评论 -
第十七课.有向图模型与条件独立性
目录有向图对概率模型的表达贝叶斯网络的三种基本结构贝叶斯网络对联合概率的拆解贝叶斯网络与概率模型的关系本篇介绍有向图模型,即贝叶斯网络有向图对概率模型的表达概率图模型将抽象的图赋予了概率的含义,而概率图模型的核心是多维随机变量的联合概率分布p(x1,x2,...,xp)p(x_{1},x_{2},...,x_{p})p(x1,x2,...,xp)的计算,高维是导致使用链式法则的原因,现在要基于有向图,思考利用条件独立性化简表达。贝叶斯网络表达的概率模型如下:有向图中,每个节点代表的都是随机变原创 2021-05-20 17:24:18 · 1920 阅读 · 3 评论 -
第十六课.概率图模型
目录概率图的基本含义概率图的基本含义概率图从字面上可分为"概率"和"图","概率"指的是概率模型,在之前的内容中,介绍了一些很基础的概率模型,并把概率引入机器学习中,这样我们就能够实现对已有数据进行聚类(例如混合高斯模型),或者对未知数据进行预判(例如朴素贝叶斯,逻辑回归)。对于"图",即为数据结构中的图,包含有向图和无向图。对于上述的图结构赋予概率含义,即将概率模型嵌入图结构,形成概率图模型,一方面使得表达清晰直观,另一方面可以用图结构把概率的特征体现得更加明显,以便构造更合理的模型。...原创 2021-05-20 15:31:04 · 328 阅读 · 0 评论 -
第十五课.马尔科夫链蒙特卡洛方法
目录M-H采样Metropolis-Hastings采样原理M-H采样步骤Gibbs方法Gibbs核心流程Gibbs采样的合理性证明Gibbs采样实验在第十四课中讲述了马尔科夫链与其稳态的性质,本篇讨论基于马尔科夫链蒙特卡洛(MCMC)方法的采样。M-H采样Metropolis-Hastings采样原理我们的目标分布是p(z)p(z)p(z),同时我们手里有一个便于随时间进行遍历的马尔科夫链,其状态转移矩阵为QQQ。为了便于在马尔科夫链上随时间进行状态转移,这里的矩阵QQQ设计为:Qij=P(x原创 2021-05-05 07:01:12 · 539 阅读 · 0 评论 -
第十四课.马尔科夫链
目录马尔科夫链马尔科夫链的平稳分布马尔科夫链进入稳态的转移过程马尔科夫链稳态的意义稳态判定:细致平稳条件马尔科夫链随机过程指的是一个随机变量序列:{Xt}\left\{X_{t}\right\}{Xt},而马尔科夫链就是随机过程中的一种典型类型,其概率图如下:马尔科夫链在不同的时间 ttt 对应着不同的状态节点 xtx_{t}xt,实际上就是用时间串联起来的一个个随机变量,这一组随机变量共享一个状态空间,其中包含 nnn 个状态,每一个时间节点对应的随机变量都会取这个状态空间中的一个具体状态。原创 2021-05-03 16:23:52 · 937 阅读 · 1 评论 -
第十三课.随机近似初步:蒙特卡洛方法
目录随机近似:蒙特卡洛接受-拒绝采样重要性采样小结本篇内容与第十课的蒙特卡洛方法与随机过程重复。随机近似:蒙特卡洛随机近似方法的核心是蒙特卡洛方法,以采样的方式实现随机近似,从而实现数值积分等目标。例如要计算函数f(Z)f(Z)f(Z)关于分布p(Z∣X)p(Z|X)p(Z∣X)的期望,从期望的定义可知,期望的计算本质其实是计算积分:Ez∣x[f(z)]=∫zp(z∣x)f(z)dzE_{z|x}[f(z)]=\int_{z}p(z|x)f(z)dzEz∣x[f(z)]=∫zp(z∣x)f(z原创 2021-04-30 10:55:04 · 1255 阅读 · 0 评论 -
第十二课.统计推断的基本思想
目录统计推断的根源精确推断与近似推断统计推断的根源对于统计推断的根源,先回顾贝叶斯公式:p(θ∣x)=p(x∣θ)p(θ)p(x)p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}p(θ∣x)=p(x)p(x∣θ)p(θ)其中,θ\thetaθ是模型的参数(注意贝叶斯流派认为一切皆随机变量),p(θ)p(\theta)p(θ)是事先给定的参数的经验分布,p(x∣θ)p(x|\theta)p(x∣θ)是似然,p(x)p(x)p(x)是观测变量的概率,在某个给定原创 2021-04-29 12:08:58 · 843 阅读 · 0 评论 -
第十一课.高斯过程
目录高斯过程概述高斯过程举例高斯过程的要素与描述径向基函数演示高斯过程回归高斯过程回归的演示高斯过程概述高斯过程从字面上看,分为两部分:高斯:高斯分布;过程:随机过程;当随机变量是一维随机变量的时候,则对应一维高斯分布,概率密度函数p(x)=N(μ,σ2)p(x)=N(\mu,\sigma^{2})p(x)=N(μ,σ2),当随机变量上升至ppp维后,对应高维高斯分布,概率密度函数p(x)=N(μ,Σp×p)p(x)=N(\mu,\Sigma_{p\times p})p(x)=N(μ,Σp×p原创 2021-04-28 17:51:16 · 1131 阅读 · 0 评论 -
第十课.蒙特卡洛方法与随机过程
目录蒙特卡洛方法蒙特卡洛的概念蒙特卡洛采样方法直接采样接受-拒绝采样重要性采样小结随机过程随机变量与随机过程随机过程实际场景举例赌博中的随机过程股价变化的过程两个重要随机过程蒙特卡洛方法蒙特卡洛的概念蒙特卡洛是一个赌场的名称,用它作为名字是因为蒙特卡洛方法是一种随机模拟的方法,这很像赌博场里面的扔骰子的过程。最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题。例如下图是一个经典的用蒙特卡洛求圆周率的问题,用计算机在一个正方形之中随机的生成点,计数有多少点落在1/41/41/4圆之中,这些原创 2021-04-17 13:27:22 · 4627 阅读 · 0 评论 -
第九课.高斯混合模型与EM算法参数估计
目录问题起源从混合模型角度分析高斯混合模型的参数估计尝试EM算法对高斯混合模型进行参数估计高斯混合模型的应用场景问题起源在统计学中,对于很多的样本,可以用高斯分布去描述其分布,高斯分布非常通用,但是如果现在有一组可视化的二维数据,其分布为:很明显,当尝试使用二元高斯分布描述是不合适的,单个高斯分布无法合理描述上图的样本分布。为了解决这个困难,引入高斯混合模型:高斯指的是基础模型还是高斯分布;混合指的是利用多个高斯分布加权叠加,也就是把多个不同的高斯分布的概率密度函数加权,形成一个新的概率密度原创 2021-04-15 11:28:00 · 1686 阅读 · 0 评论 -
第八课.EM算法的合理性与算法推导
目录EM算法背景EM算法迭代的合理性EM算法推导EM算法的E步和M步分析EM算法的由来EM算法背景在硬币投掷和班级身高问题中,引入了隐变量问题,模型变成了混合模型,我们不能直接利用极大似然估计求出模型参数,通常需要用迭代法逐步尝试,这个迭代法正是EM算法的基础。在极大似然估计中,我们采用计算最值的方法,将使得p(x∣θ)p(x|\theta)p(x∣θ)取得最大值的参数θ\thetaθ作为估计值,比如一类简单的概率模型:高斯分布,他只有观测变量xxx,我们可以直接利用观测变量,基于极大似然,估计模型的原创 2021-04-14 14:25:45 · 424 阅读 · 0 评论 -
第七课.含隐变量的参数估计
参数估计问题在第一课中,提到使用样本估计模型(比如高斯分布)的参数,并说明了常用的极大似然估计法。假设现在有一枚硬币,但它质地不均匀,导致抛硬币的正面朝上与反面朝上的概率不相等,现在还是想研究正面朝上的概率是多少,所以可以抛硬币NNN次,正面朝上的次数为n1n_{1}n1,则就使用n1/Nn_{1}/Nn1/N作为正面朝上概率的估计值。再举例一个问题,假设已知某个班级内的男同学身高服从正态分布,现在要研究这个正态分布的均值和方差,我们可以随机挑选NNN个男同学的身高数据作为样本,分别统计他们的身高x原创 2021-04-13 15:08:32 · 663 阅读 · 2 评论 -
第六课.朴素贝叶斯
高斯判别分析回顾朴素贝叶斯和高斯判别分析都是生成式模型,并且都针对联合概率进行建模:y=argmaxy∈{0,1}p(y∣x)=argmaxy∈{0,1}p(y)p(x∣y)y=argmax_{y\in\left\{0,1\right\}}p(y|x)=argmax_{y\in\left\{0,1\right\}}p(y)p(x|y)y=argmaxy∈{0,1}p(y∣x)=argmaxy∈{0,1}p(y)p(x∣y)另外生成式模型具有一个较隐藏的特点:对先验概率p(x∣y)p(x|y)p(x原创 2021-04-12 13:29:02 · 176 阅读 · 0 评论 -
第五课.高斯判别分析
目录概率生成式模型高斯判别模型原理高斯判别模型的参数估计概率生成式模型概率判别式模型直接对条件概率p(Y∣X)p(Y|X)p(Y∣X)建模,比如逻辑回归,先计算p(y=1∣x)p(y=1|x)p(y=1∣x)和p(y=0∣x)p(y=0|x)p(y=0∣x)的概率值,再通过概率值判断分类结果取0还是1;概率生成式模型关心的是p(y=0∣x)p(y=0|x)p(y=0∣x)和p(y=1∣x)p(y=1|x)p(y=1∣x)两个概率哪个更大,只是比较二者的大小,不是一味地求p(y∣x)p(y|x)p(y∣原创 2021-04-11 12:45:04 · 431 阅读 · 0 评论 -
第四课.判别式模型
目录线性回归到线性分类逻辑回归建模逻辑回归参数估计线性回归到线性分类线性回归:y=wTx+by=w^{T}x+by=wTx+b,得到结果是一个属于(−∞,+∞)(-\infty,+\infty)(−∞,+∞)的实数,线性分类问题则需要映射wTx+bw^{T}x+bwTx+b到类别的编码上,分类问题有硬分类和软分类两种情况,假设有一个二分类问题:硬分类,映射结果是二值集合{0,10,10,1}中的值;软分类,映射结果是[0,1][0,1][0,1]区间上的值,相比硬分类,软分类取到的是概率值,哪个类原创 2021-03-30 13:05:35 · 907 阅读 · 0 评论 -
第三课.最小二乘线性估计
目录线性拟合平面线性拟合维度扩展最小二乘参数估计高斯噪声与最小二乘探究高斯噪声与最小二乘的关系参数估计线性拟合平面线性拟合线性回归是最简单的数据拟合方法,平面空间的线性回归利于直观理解:平面上有很多样本点(x,y)(x,y)(x,y),目标是找到一条直线y=ax+by=ax+by=ax+b拟合这些样本,在实际问题中,样本点的特征不局限于1维,而是任意的ppp维;维度扩展为了便于问题描述,引入符号:假设有一组样本D={(x1,y1),(x2,y2),...,(xn,yn)}D=\left\{(原创 2021-03-29 13:29:21 · 728 阅读 · 0 评论 -
第二课.多元高斯分布与其几何特征
目录多元高斯分布一元高斯与多元高斯多元高斯分布的参数二元高斯分布多元高斯分布的几何特征几何特征实例演示多元高斯分布一元高斯与多元高斯在第一课的一元高斯分布中,处理的是一组样本X=(x1,x2,...,xN)X=(x_{1},x_{2},...,x_{N})X=(x1,x2,...,xN),每个样本都是一个随机变量,可以粗略地认为就是随机的"数值";对于多元高斯分布,同样也有一组样本XXX,但每个样本不是单值的随机变量,而是多维的随机向量,假设每个样本有ppp维:x=[x1,x2,...,xp]原创 2021-03-27 15:44:56 · 1632 阅读 · 0 评论 -
第一课.极大似然估计与有偏性无偏性
目录极大似然估计问题背景极大似然估计的计算方法参数估计的有偏性和无偏性极大似然估计问题背景以高斯分布引出问题,高斯分布的重要性体现于:1.根据中心极限定理,当样本量足够大的时候,任意分布的均值都趋近于一个高斯分布,高斯分布具有工程应用的普适性;2.高斯分布是许多模型的基础,比如线性高斯模型(卡尔曼滤波器),高斯过程等;假设有一组观测到的样本数据X=(x1,x2,...,xN)X=(x_{1},x_{2},...,x_{N})X=(x1,x2,...,xN),他们服从参数θ=(μ,σ2)原创 2021-03-26 13:43:13 · 6775 阅读 · 0 评论