机器学习推导系列
文章平均质量分 93
B站手推机器学习课程总结。
酷酷的群
软件工程在读
展开
-
Sigmoid信念网络|机器学习推导系列(二十八)
一、概述Sigmoid信念网络(Sigmoid Belief Network,SBN)是一种有向图模型,这里的信念网络指的就是贝叶斯网络,也就是有向图模型,sigmoid指的就是sigmoid函数:σ(x)=11+exp(−x)\sigma (x)=\frac{1}{1+exp(-x)}σ(x)=1+exp(−x)1在Sigmoid信念网络中同样有两观测变量和隐变量,不过他们的连接是有向的,并且节点全部服从0-1分布,并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示:原创 2021-04-10 16:46:44 · 458 阅读 · 0 评论 -
近似推断|机器学习推导系列(二十七)
一、推断的动机和困难推断的动机推断问题是在概率图模型中经常遇到的问题,也就是给定观测变量vvv的情况下求解后验p(h∣v)p(h|v)p(h∣v),这里的hhh是隐变量(注意原来我们常用zzz和xxx来表示隐变量和观测变量,不过在深度学习中我们更倾向于使用hhh和vvv来表示隐变量和观测变量)。那么为什么推断问题是重要的呢?也就是说推断的动机是什么呢?推断的动机主要包括以下两个方面:①推断本身是有意义的。推断问题事实上是一种对原因的追溯,在给定观测的情况下来求解它的原因,因此推断本身是有意义的。原创 2021-03-28 19:30:24 · 216 阅读 · 0 评论 -
配分函数|机器学习推导系列(二十六)
一、概述对于有向概率图模型来说,由于图中存在天然的拓扑排序关系,所以有向概率图的因式分解的形式很容易写出来。而对于无向图来说就需要根据它图中的最大团来写成一个因式分解的形式,无向图模型在局部并没有表现出是一个概率模型,在整体上才表现地是一个概率模型,由此我们也就遇到了配分函数。在无向图模型的学习和评估问题中,我们会面对概率公式中的配分函数(Partition Function),往往这个配分函数是很难处理的。对于连续或离散的高维随机变量x∈Rp or {0,1,⋯ ,k}px\in \mathbb{原创 2021-03-25 11:59:44 · 906 阅读 · 0 评论 -
高斯过程回归|机器学习推导系列(二十四)
一、概述将⼀维高斯分布推⼴到多变量中就得到了高斯网络,将多变量推⼴到无限维,就得到了高斯过程。高斯过程是定义在连续域(时间/空间)上的无限多个高斯随机变量所组成的随机过程。具体的形式化的定义如下:对于时间轴上的随机变量序列{ξt}t∈T\left \{\xi _{t}\right \}_{t\in T}{ξt}t∈T,TTT是一个连续域,如果∀n∈N+\forall n\in N^{+}∀n∈N+,t1,t2,⋯ ,tn∈Tt_{1},t_{2},\cdots ,t_{n}\in Tt1,t2原创 2021-03-21 10:01:19 · 654 阅读 · 0 评论 -
贝叶斯线性回归|机器学习推导系列(二十三)
一、概述线性回归的数据如下所示:D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋱⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1D=\left \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right \}\\x_{i}\in \mathbb{R}^{p},y_{i}\in原创 2021-03-21 09:58:23 · 897 阅读 · 0 评论 -
受限玻尔兹曼机|机器学习推导系列(二十五)
一、概述对于无向图模型,我们可以回忆一下它的基于最大团的因子分解(Hammersley–Clifford theorem)。给定概率无向图模型,Ci,i=1,2,⋯ ,kC_i,i=1,2,\cdots ,kCi,i=1,2,⋯,k为无向图模型上的最大团,则xxx的联合概率分布P(x)P(x)P(x)可以写为:P(x)=1Z∏i=1kψ(xCi)Ci:最大团xCi:最大团随机变量集合ψ(xCi):势函数,必须为正Z=∑x∏i=1kψ(xCi)=∑x1∑x2⋯∑xp∏i=1kψ(xCi)P(x)=\f原创 2021-03-15 18:13:22 · 325 阅读 · 0 评论 -
高斯网络|机器学习推导系列(二十二)
一、概述高斯网络是一种概率图模型,对于普通的概率图模型,其随机变量的概率分布是离散的,而高斯网络的概率分布是连续的高斯分布。高斯网络也分为有向图和无向图,其中有向图叫做高斯贝叶斯网络(Gaussian Bayesian Network,GBN),无向图叫做高斯马尔可夫网络(Gaussian Markov Network,GMN)。概率图模型的分类大致如下:Probabilistic Graphical Model{→discrete{Bayesian NetworkMarkov Network原创 2021-02-21 18:30:49 · 390 阅读 · 0 评论 -
谱聚类|机器学习推导系列(二十)
一、概述对于下图所示的数据进行聚类,可以采用GMM或者K-Means的方法:然而对于下图所示的数据,单纯的GMM和K-Means就无效了,可以通过核方法对数据进行转换,然后再进行聚类:对于上图所示的数据进行聚类可以考虑采用谱聚类(spectral clustering)的方法。总结来说,聚类算法可以分为两种思路:①Compactness,这类有 K-means,GMM 等,但是这类算法只能处理凸集,为了处理非凸的样本集,必须引⼊核技巧。②Connectivity,这类以谱聚类为代表。二原创 2021-01-31 13:51:37 · 337 阅读 · 0 评论 -
粒子滤波|机器学习推导系列(十九)
一、概述粒子滤波(Particle Filter)是动态模型的非线性,非高斯的版本,也就是说ztz_tzt和zt−1z_{t-1}zt−1、xtx_txt和ztz_tzt的关系是非线性的,其噪声也是非高斯的:zt=g(zt−1,μ,ε)xt=h(zt,μ,δ)z_{t}=g(z_{t-1},\mu ,\varepsilon )\\x_{t}=h(z_{t},\mu ,\delta )zt=g(zt−1,μ,ε)xt=h(zt,μ,δ)对于卡尔曼滤波,可以通过高斯分布的性质直接解得原创 2021-01-22 15:11:25 · 349 阅读 · 0 评论 -
卡尔曼滤波|机器学习推导系列(十八)
一、概述HMM 模型适用于隐变量是离散的值的时候,对于连续隐变量的 HMM,常用卡尔曼滤波(Kalman Filtering)描述线性高斯模型的态变量,使用粒子滤波(Particle Filter)来表述非高斯非线性的态变量。线性体现在上一时刻和这一时刻的隐变量以及隐变量和观测变量之间,它们的关系可以表示为:zt=A⋅zt−1+B+εxt=C⋅zt+D+δε∼N(0,Q)δ∼N(0,R)z_{t}=A\cdot z_{t-1}+B+\varepsilon \\x_{t}=C\cdot z_{t}+原创 2020-10-31 20:39:11 · 707 阅读 · 0 评论 -
隐马尔可夫模型|机器学习推导系列(十七)
一、概述1. 介绍动态模型可以类比高斯混合模型这种静态模型,高斯混合模型的特点是“混合”,动态模型的特点是在“混合”的基础上加入了“时间”。动态模型包括多种模型:Dynamic Model{HMMKalman FilterParticle FilterDynamic\; Model\left\{\begin{matrix}HMM\\ Kalman\; Filter\\ Particle\; Filter\end{matrix}\right.DynamicModel⎩⎨⎧HMMKalm原创 2020-10-25 18:55:40 · 323 阅读 · 0 评论 -
MCMC-2|机器学习推导系列(十六)
一、概述1. 概述在对一个概率分布进行随机抽样,或者是求函数关于该概率分布的数学期望时可以使用马尔可夫链蒙特卡罗法(MCMC)。相比与拒绝采样法和重要性采样法,MCMC更适用于随机变量是多元的、概率密度函数是非标准形式的、随机变量各分量不独立等情况。对于多元随机变量xxx,满足x∈Xx\in \mathcal{X}x∈X,其概率密度函数为p(x)p(x)p(x),f(x)f(x)f(x)为定义在x∈Xx\in \mathcal{X}x∈X的函数,目标是获得概率分布p(x)p(x)p(x)的样本集合以及原创 2020-10-06 17:18:49 · 822 阅读 · 0 评论 -
MCMC-1|机器学习推导系列(十五)
一、蒙特卡洛方法Monte Carlo Method也就是基于采样的随机近似方法。该方法旨在求得复杂概率分布下的期望值:Ez∣x[f(z)]=∫p(z∣x)f(z)dz≈1N∑i=1Nf(zi)E_{z|x}[f(z)]=\int p(z|x)f(z)\mathrm{d}z\approx \frac{1}{N} \sum_{i=1}^{N}f(z_{i})Ez∣x[f(z)]=∫p(z∣x)f(z)dz≈N1∑i=1Nf(zi),其中ziz_{i}zi是从概率分布p(z∣x)p(z|x)p(z∣原创 2020-09-26 18:16:06 · 290 阅读 · 0 评论 -
变分推断|机器学习推导系列(十四)
一、概述对于概率模型来说,如果从频率派角度来看就会是一个优化问题,从贝叶斯角度来看就会是一个积分问题。从贝叶斯角度来看,如果已有数据xxx,对于新的样本x^\hat{x}x^,需要得到:p(x^∣x)=∫θp(x^,θ∣x)dθ=∫θp(x^∣θ,x)p(θ∣x)dθ=x^与x独立∫θp(x^∣θ)p(θ∣x)dθ=Eθ∣x[p(x^∣θ)]p(\hat{x}|x)=\int _{\theta }p(\hat{x},\theta |x)\mathrm{d}\theta =\int _{\theta原创 2020-08-29 10:07:17 · 459 阅读 · 0 评论 -
高斯混合模型|机器学习推导系列(十三)
一、概述以一维数据为例,我们可以看到下图通过将多个单一的高斯模型加权叠加到一起就可以获得一个高斯混合模型,这个混合模型显然具备比单个高斯模型更强的拟合能力:再举一个二维数据的例子,在下图中可以看到有两个数据密集区域,对应的概率分布也就会有两个峰。高斯混合模型可以看做生成模型,其数据生成过程可以认为先选择一个高斯分布,再从被选择的高斯分布中生成数据:综合上述两种描述,我们可以从两种角度来描述高斯混合模型:几何角度:加权平均可以认为高斯混合模型是将多个高斯分布加权平均而成的模型:p(x)=原创 2020-08-24 11:22:10 · 453 阅读 · 0 评论 -
EM算法|机器学习推导系列(十二)
一、概述假设有如下数据:XXX:observed dataZZZ:unobserved data(latent variable)(X,Z)(X,Z)(X,Z):complete dataθ\thetaθ:parameterEM算法的目的是解决具有隐变量的参数估计(MLE、MAP)问题。EM算法是一种迭代更新的算法,其计算公式为:θt+1=Ez∣x,θt[log p(x,z∣θ)]=argmaxθ∫zlog p(x,z∣θ)⋅p(z∣x,θt)dz\theta ^{t+1}=E_{z原创 2020-08-20 11:05:56 · 232 阅读 · 0 评论 -
概率图模型-推断|机器学习推导系列(十一)
一、概述总的来说,推断的任务就是求概率。假如我们知道联合概率P(x)=P(x1,x2,⋯ ,xp)P(x)=P(x_{1},x_{2},\cdots ,x_{p})P(x)=P(x1,x2,⋯,xp),我们需要使用推断的方法来求:边缘概率:P(xi)=∑x1⋯∑xi−1∑xi+1⋯∑xpP(x)边缘概率:P(x_{i})=\sum_{x_{1}}\cdots\sum_{x_{i-1}} \sum_{x_{i+1}}\cdots \sum_{x_{p}}P(x)边缘概率:P(xi)=∑x1⋯原创 2020-08-17 18:20:17 · 352 阅读 · 0 评论 -
概率图模型-表示|机器学习推导系列(十)
一、概述基本规则概率图模型使用图的形式表示概率分布,首先总结一下几个随机变量分布的一些规则:Sum Rule:p(x1)=∫p(x1,x2)dx2p(x_{1})=\int p(x_{1},x_{2})\mathrm{d}x_{2}p(x1)=∫p(x1,x2)dx2Product Rule:p(x1,x2)=p(x1∣x2)p(x2)p(x_{1},x_{2})=p(x_{1}|x_{2})p(x_{2})p(x1,x2)=p(x1∣x2)p(x2)Chain Rule:原创 2020-08-12 17:40:42 · 380 阅读 · 0 评论 -
指数族分布|机器学习推导系列(九)
一、介绍一般形式指数族分布有:高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。指数族分布的一般形式:P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}其中:①$\eta :参数向量;②:参数向量;②:参数向量;②\phi (x):充分统计量,Sufficien原创 2020-08-12 16:21:27 · 936 阅读 · 0 评论 -
核方法|机器学习推导系列(八)
#一、线性不可分问题有时线性可分的数据夹杂一点噪声,可以通过改进算法来实现分类,比如感知机的口袋算法和支持向量机的软间隔。但是有时候数据往往完全不是线性可分的,比如下面这种情况:在异或问题中数据往往不是线性可分的,但通过将数据映射到高维空间后就可以实现线性可分。可以认为高维空间中的数据比低维空间的数据更易线性可分。对于异或问题,我们可以通过寻找一个映射ϕ(x)\phi (x)ϕ(x)将低维空间中的数据xxx映射成高维空间中的zzz来实现数据的线性可分,例如:x=(x1,x2)⏟二维→ϕ(x)z=(原创 2020-08-04 18:33:33 · 492 阅读 · 0 评论 -
支持向量机|机器学习推导系列(七)
一、硬间隔SVM模型定义假设有以下数据:{(xi,yi)}i=1N,xi∈Rp,yi∈{+1,−1}\left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \{+1,-1\}{(xi,yi)}i=1N,xi∈Rp,yi∈{+1,−1}SVM的主要思想是在特征空间中寻找一个最大间隔的超平面wTx+bw^{T}x+bwTx+b实现数据的二分类,SVM属于判别模型。这里的间隔指的是样本点到分离超平原创 2020-08-01 16:44:57 · 237 阅读 · 0 评论 -
约束优化问题|机器学习推导系列(六)
一、简介约束优化问题的原问题(Primal Problem)的一般形式如下:{minx f(x),x∈Rps.t. mi(x)≤0,i=1,2,⋯ ,Ms.t. nj(x)=0,j=1,2,⋯ ,N\left\{\begin{matrix}\underset{x}{min}\; f(x),x\in \mathbb{R}^{p}\\ s.t.\; m_{i}(x)\leq 0,i=1,2,\cdots ,M\\s.t.\; n_{j}(x)=0,j=1,2,\cdots ,N\end{ma原创 2020-08-01 16:43:49 · 760 阅读 · 0 评论 -
主成分分析|机器学习推导系列(五)
一、简介为什么需要降维数据的维度过高容易造成维数灾难(Curse of Dimensionality)。.维数灾难:通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。这里可以举两个几何的例子来看一下维数过高的影响:上图表示一个多维空间(以二维为例),则其中图形的体积有如下关系:V超立方体=1V超球体=K⋅0.5DlimD→∞V超球体=0V_{超立方体}=1\\V_{超球体}=K\cdot 0.5^{D}\\\lim_{D\rightarrow \in原创 2020-07-26 21:45:09 · 198 阅读 · 0 评论 -
线性分类|机器学习推导系列(四)
一、从线性回归到线性分类线性回归的特性{线性{属性线性→打破属性非线性:特征转换(多项式回归)全局线性→打破全局非线性:线性分类(激活函数是非线性)系数线性→打破系数非线性:神经网络全局性→打破线性样条回归、决策树数据未加工→打破PCA、流形\left\{\begin{matrix}线性\left\{\begin{matrix}属性线性\overset{打破}{\rightarrow}属性非线性:特征转换(多项式回归)\\ 全局线性\overset{打破}{\rightarrow}全局非线性原创 2020-07-22 20:36:39 · 139 阅读 · 0 评论 -
线性回归|机器学习推导系列(三)
一、概述假设有以下数据:D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋱⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1D=\left \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right \}\\x_{i}\in \mathbb{R}^{p},y_{i}\in \ma原创 2020-07-18 09:20:35 · 267 阅读 · 0 评论 -
高斯分布|机器学习推导系列(二)
一、概述假设有以下数据:X=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)N×p其中xi∈Rp且xi∼iidN(μ,Σ)则参数θ=(μ,Σ)X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix}x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T}\end{pmatrix}_{N \times p}\\其中x_{i}\in \mathbb{R}^{p}且x_{i}\overset{iid}{\sim }N(原创 2020-07-16 12:19:51 · 704 阅读 · 0 评论 -
绪论|机器学习推导系列(一)
一、频率派 vs 贝叶斯派机器学习主要解决从数据中获取其概率分布的问题,通过一些机器学习的算法可以从大量数据中找到一定的规律,从而建立模型来解决实际问题,因此机器学习中主要使用数据来求解其参数:data:XXX$X=\left[\begin{matrix}x_1 & x_2 & … & x_N\\end{matrix}\right]^T_{N \times p}=\left[\begin{matrix}x_{11} & x_{12} & \原创 2020-07-13 09:59:56 · 95 阅读 · 0 评论