![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习白板推导
对B站大神的机器学习推导进行整理,地址:[https://www.bilibili.com/video/BV1aE411o7qd/?spm_id_from=333.788.videocard.0]()
AI路上的小白
这个作者很懒,什么都没留下…
展开
-
32 变分自编码器VAE
1 Introduction本小节主要介绍的是变分自编码器(Variational AutoEncoder),VAE 在之前的变分推断中就有介绍,具体在“随机梯度变分推断(SGVI)”中已进行描述。其中采用了重参数化技巧,也就是Amortized Inference。VAE 在很多blog 中都有详细的解释,这里只是很简单的描述其思想,希望可以抛转引玉。VAE 中的V 指的是变分推断,这个概念是来自于概率图模型。而AE 的概念是来自于神经网络。所以,VAE 实际上是神经网络和概率图的结合模型。2 从G原创 2020-07-02 17:55:44 · 758 阅读 · 0 评论 -
33 流模型
1 Introduction一小节中讲到了 Latent Variable Model(LVM),VAE。其主要思想就是将隐变量扩充 在上 高维连续的分布,来增强模型的表达能力。而 LVM 模型中的核心困难是 P(X) 计算不出来,因为 P(X)=∫ZP(X∣Z)P(Z)dZ,P(X)=\int_{Z} P(X \mid Z) P(Z) d Z,P(X)=∫ZP(X∣Z)P(Z)dZ, 而 ZZZ 的维度过高 P(X)P(X)P(X) 算不出来。而根据 Bayesian 公式:P(Z∣X)=P(Z)P原创 2020-07-02 17:55:16 · 520 阅读 · 0 评论 -
31 生成对抗网络 GAN
1 什么是 Generative Adversarial Network ?首先,我们需要充分的了解什么是生成对抗网络( tive adversarial network,GAN)?顾名思义, 首先它是一种生成模型,它的核心是对样本数据建模。下面我们将举个例子来详细的说明一下什么是GAN。首先,我是一个收藏家,我有很多的宝贝,但是,我最终的目标不仅仅是一个收藏家。我想高仿东西,成为工艺品大师(做仿品)。我要不惜一切代价的成为这方面的大师。但是,我做出来的东西不能只是我白己分辨不出来就够了,那就只能放在家原创 2020-06-16 12:41:21 · 371 阅读 · 1 评论 -
30 生成模型综述 Generative Model
1 生成模型的定义前面所详细描述的模型以浅层的机器学习为主。本章将承上启下引出后面深度机器学习的部分。本小节,主要讲述的是什么是生成模型,它是不是只是生成样本,生成数据?它的任务是什么?精准的定义是什么?这个问题实际上在之前的章节中有过详细的介绍。这里更进一步总结。回忆一下,之前讲过的简单的生成模型,包括高斯混合分布(GMM),GMM 的主要任务是聚类,属于非监督学习;而监督学习中的生成模型,最简单的有朴素贝叶斯模型,主要任务是分类。而Logistics regression 显然不是生产模型,简单的原创 2020-06-15 15:39:45 · 2939 阅读 · 0 评论 -
29 深度玻尔兹曼机 Deep Boltzmann Machine
1 Introduction本章介绍的是深度玻尔兹曼机(Deep Boltzmann Machines,DBM),应该算是玻尔兹曼机系列的最后一个模型了。我们前面介绍的三种玻尔兹曼机和今天将要介绍的深度玻尔兹曼机的概率图模型如下图所示,从左往右分别是深度信念网络(Deep Belief Network),限制玻尔兹曼机(Restricted BoltzmannMachine,RBM),和DBM,玻尔兹曼机(General Boltzmann Machine,BM):显然,深度玻尔兹曼机和深度信念网络原创 2020-06-15 15:20:09 · 4359 阅读 · 1 评论 -
28 玻尔兹曼机 Boltzmann Machine
玻尔兹曼机(Boltzmann Machine)在“受限玻尔兹曼机”那一章就有了简单的描述。在那一章我们就较为详细的分析过了,由于Boltzmann machine 中的依赖关系过于复杂,它的Learning 和Inference问题基本是intractable。所以,为了简化而提出了受限玻尔兹曼机(Restricted Boltzmann Machine)。但是,为什么又重新谈谈这个似乎不太好的模型呢?主要原因是Boltzmann Machine 是深度信念网络(DBN),前馈神经网络等网络结构的基础,原创 2020-06-15 14:51:47 · 1467 阅读 · 0 评论 -
27 Deep Belief Network
Deep Belief Network 是Hinton 在2006 年提出的方法,应用在分类问题上的效果明显好过SVM。它的诞生有着重要的意义,这意味着打开了Deep Learning 的大门,把连接主义推上了历史的舞台,给人类带来了希望。1 Introduction首先,来看看Deep Belief Network 这个名字的含义,Belief Network 实际上就是Bayes Network(有向图模型),而Deep 的含义就很简单了,代表有很多层。所以,从字面上理解,Deep Belief N原创 2020-06-15 13:40:08 · 673 阅读 · 1 评论 -
26 Sigmoid信念网络
1 Background1.1 什么是Sigmoid Belief Network这一节将要学习的是Sigmoid Belief Network。首先来想一想这个名字是怎么来的,其中Belief 就等价于Bayesian Network(俗称有向图),而Sigmoid 指的是Sigmoid Function:σ(x)=11+exp−x\sigma(x)=\frac{1}{1+\exp -x}σ(x)=1+exp−x1表示图中的节点都是服从0/1 分布的离散随机变量,并且概率值和Sigmoid原创 2020-06-14 23:25:46 · 2073 阅读 · 0 评论 -
25 近似推断 Approximate Inference
这一讲,主要是从一些宏观的角度来描述了一下近似推断的方法和思想。几乎所有的无向图都会涉及到推断(Inference) 的问题。概率图模型的三大问题分别是,表示(Representation),学习(Learning)和推断问题(Inference)。本节侧重从深度学习的角度来看一下Inference。1 Background1.1 推断的目的首先我们要明确推断的目的是什么?我们为什么要进行推断,我们假设vvv 是可观测变量,hhh 是不可观测的隐藏变量。推断的目的可以分为以下两个部分。1.1.1 推原创 2020-06-14 22:56:37 · 1699 阅读 · 0 评论 -
24 直面配分函数Confronting Partition Function
1 Background1.1 直面配分函数的来源在概率图模型中,所有的问题基本上都是这三个问题组成的:模型表示(Representation);学习(Learning);推断(Inference)。而Inference 中,有精确推断和近似推断(Variational Inference 和MCMC)。在之前我们Restricted Boltzmann Machine 对模型表示和推断的问题作出了详细的推导,而学习问题当时没有进行推导,这个问题保留到了现在。在前面的Restricted Boltzm原创 2020-06-14 22:31:59 · 1428 阅读 · 1 评论 -
23 前馈神经网络
1 从机器学习到深度学习本节的主要目的是从一个较高的角度来介绍一下,什么是深度学习,并且给深度学习一个较好的总结,给大家一个较好的印象。机器学习是目前最火热的一个研究方向,而机器学习大致可以分为,频率派和贝叶斯派。频率派逐渐演变出了统计机器学习,而贝叶斯派逐渐演变出了PGM,也就是概率图模型。下面我们分开进行描述。1.1 频率派统计机器学习方法基本就是由频率派的估计思想得到的。统计机器学习方法大概可以分成四种。正则化:L1;L2 也就是之前提到的Lasso 和岭回归,这实际上并没有产生新的模型,原创 2020-06-13 21:25:34 · 486 阅读 · 0 评论 -
22 谱聚类 Spectral Clustering
1 Background本章节主要是描述的一种聚类算法,谱聚类(Spectral Clustering)。对机器学习有点了解的同学对聚类算法肯定是很熟悉的,那么谱聚类和之前普通的聚类算法有什么不一样呢?或者说它有什么优势呢?1.1 聚合型聚类(Compactness)常见的聚类方法有两种思路,一种就是聚合型聚类(Compactness)。典型的算法有K-means 和Gaussian Mixture Model 这种。GMM 我们在前面的章节中有详细的描述,GMM Clustering 的思想可以这样原创 2020-06-13 20:37:44 · 461 阅读 · 0 评论 -
21受限玻尔兹曼机RBM
1 Background本小节主要介绍的是受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)。这个名字听着逼格确实挺高的。本小节,我们主要讨论的是什么是Boltzmann Machine,然后讲讲它的历史,为我们引出Restricted Boltzmann Machine 做铺垫。1.1 什么是Boltzmann Machine?其实Boltzmann Machine 就是一种Markov Random Field,也就是无向图而已。那么,BoltzmannMa原创 2020-06-12 21:43:33 · 612 阅读 · 0 评论 -
20 高斯过程 Gaussian Process
本小节我们将进入Gaussian Process 的学习。Gaussian 自然指的就是Gaussian Distribution,而Process 指的就是随机过程。在一维的 Gaussian Distribution 中我们可以令 p(x)=N(μ,σ2)p(x)=\mathcal{N}\left(\mu, \sigma^{2}\right)p(x)=N(μ,σ2) 。如果 对应到高维高斯分布的话,也就是 (Multivariate Gaussian Distribution) 也就是我们通常意义上说的原创 2020-06-11 21:35:12 · 905 阅读 · 0 评论 -
19 贝叶斯线性回归
数据集 D={(xi,yi)}i=1N,D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N},D={(xi,yi)}i=1N, 其中 xi∈Rp,yi∈Rx_{i} \in \mathbb{R}^{p}, \quad y_{i} \in \mathbb{R}xi∈Rp,yi∈R数据矩阵为:(这样可以保证每一行为一个数据点)X=(x1,x2,⋯ ,xN)T=(x1Tx2T⋮xNT)=(x11x12…x1px21x32…x2p⋮⋮⋱⋮xN1xN2原创 2020-06-10 22:19:47 · 457 阅读 · 0 评论 -
18 高斯网络(Gaussian Network)
1 Background概率图模型(Probability Graphic Model),我们之前学习的是贝叶斯网络和马尔可夫随机场,之前学习的概率图中每个节点都是离散随机变量。所以根据图是有向图还是无向图,我们可以将概率图模型分成贝叶斯网络(Bayesian Network) 和马尔可夫随机场(Markov Random Field)。而如果概率图中每个节点都是一维连续随机变量,则称为高斯网络,进一步,根据图是有向图还是无向图,可以被分为高斯贝叶斯网络(Gaussian Bayesian Ne.原创 2020-06-09 22:45:30 · 3503 阅读 · 0 评论 -
17 条件随机场(二):CRF
5 CRF 概率密度函数的参数形式前面我们花了大量的功夫来将CRF 是如何演变来的,讲述了从HMM-MEMM-CRF 的演化过程,理性的讲述了CRF 图结构的合理性。所谓条件随机场,我们分成两个部分来进行解释:条件指的是,条件概率;随机场指的是,y 节点连接而成的无向图模型,称之为Markov Field。CRF 的概率图模型如下所示:5.1 势函数化简我们想要得出 P(Y∣X)P(Y | X)P(Y∣X) 的形式,很可惜在无向图中,我们并不能根据因果关系直接写出来。我们之间讲到过无向图的分解方法,这原创 2020-06-09 21:43:40 · 408 阅读 · 1 评论 -
17 条件随机场(一):CRF
1 Introduction本讲主要介绍的是条件随机场(Conditional Random Field),这个东西在机器学习中,曾经有过较大的用处,在图像处理和标注问题中大放光彩。本小节的讲解,主要是CFR 机器学习体系中的背景,我们为什么要研究CRF,CRF 和其他的模型相比它在什么地方进行了演变,然后对CRF 模型的建立和求解进行了分析,最后得出CRF 适用于怎样的问题,它有怎样的优缺点等。这个过程是很流畅的,和前面讲到的概率图模型中的隐马尔可夫模型(Hidden Markov Model)原创 2020-06-07 23:17:38 · 410 阅读 · 0 评论 -
16 粒子滤波:Particle Filter
1 背景介绍Dynamic Model 是在概率图模型中加入了时序的因素,所以样本之间不再是独立同分布(i.i.d) 的,而是有依赖关系的。而Dynamic Model 的一个主要特点是,混合模型。因为,我们看到的都是观测变量序列,而每一个观测变量都对应着一个隐变量,隐变量也被称之为系统变量(System Variable),所以有时我们也将Dynamic Model 称之为State Space Model。而Dynamic Model 我们可以从两个假设,两个方程,三个问题的角度去分析。1.1 两原创 2020-06-07 20:04:05 · 384 阅读 · 0 评论 -
15 线性动态系统——kalman filter
我们知道在概率图模型中,加入了time 的因素,就得到了Dynamic Model,实际上也就说我们通常所说的State Space Model。如果状态是离散的,就是我们上一节提到了Hidden Markov Model (HMM);如果状态是连续的,如果状态之间的关系是线性的,就是Linear Dynamic System (Kalman Filter),或者说是Linear Gaussian Model;如果状态之间的关系是Non-Linear 的或者Non-Gaussian 的,那么也就是.原创 2020-06-07 15:19:51 · 742 阅读 · 0 评论 -
14 隐⻢尔可夫模型HMM(Hidden Markov Model)
1 背景机器学习大致可以分为两个派别,也就是频率派和贝叶斯派的方法,这个之前,我们都有过详细 的说明。这里再大致的回顾一下。频率派的思想就衍生出了统计学习方法,说白了统计学习方法的重点在于优化,找 loss function。 频率派的方法可以分成三步:定义 Model, 比如 f(w)=wTx+bf(w)=w^{T} x+bf(w)=wTx+b;寻找策略 strategy,也就是定义 Loss function;求解,也就是优化的方法,比如梯度下降 (GD),随机梯度下降 (SGD),牛顿原创 2020-06-07 14:06:18 · 548 阅读 · 0 评论 -
13 MCMC(Markov Chain Monte Carlo)(二)
1 采样在前面的章节中,我们已经基本介绍了Markov Chain Monte Carlo Sampling 的基本概念,基本思路和主要方法。那么这一小节中,我们将主要来介绍一下,什么是采样?我们为什么而采样?什么样的样本是好的样本?以及我们采样中主要会遇到哪些困难?1.1 采样的动机这一小节的目的就是我们要知道什么是采样的动机,我们为什么而采样?首先第一点很简单,采样本身就是发出常见的任务,我们机器学习中经常需要进行采样来完成各种各样的任务。如果从一个P(X)P(X)P(X) 中采出一堆样本。原创 2020-06-06 20:14:04 · 535 阅读 · 1 评论 -
13 MCMC(Markov Chain Monte Carlo)(一)
其实在之前的 Inference Variational 那一节中, 我们讲到过一些有关于 Markov Chain Monte Carlo (MCMC) 的知识。也就是我们有一些数据 X,看到这些数据 X,并且有一些隐变量 Z,我们给隐变 量一些先验,根据观测数据来推后验知识,也就是 P(Z∣X)P(Z | X)P(Z∣X)但是,很不幸的是 P(Z∣X)P(Z | X)P(Z∣X) 的计算非常的复杂,我们大致采用两种思路来解决这个问题,也就是 精确推断和近似推断。精确推断无法达到我们想要的结果时,就会采原创 2020-06-06 19:44:33 · 415 阅读 · 1 评论 -
12 变分推断(Variational Inference)
假设我们的⽬的是求解分布p,但是该分布不容易表达,即很难直接求解。此时可以⽤变分推断的⽅法寻找⼀个容易表达和求解的分区q,当q和p的差距很⼩的时候,q就可以作为p的近似分布了。1 背景我们已经知道概率模型可以分为,频率派的优化问题和贝叶斯派的积分问题。1.1 优化问题为什么说频率派角度的分析是一个优化问题呢?我们从回归和SVM 两个例子上进行分析。我们将数据集描述为:D={(xi,yi)}i=1N,xi∈Rp,yi∈RD=\left\{\left(x_{i}, y_{i}\right)\right\原创 2020-06-06 12:48:58 · 981 阅读 · 0 评论 -
9 概率图模型(四):道德图、因子图
5 Moral Graph & Factor Graph在这一小节中,我们将要介绍两种特殊的概率结构,也就是Moral Graph 和Factor Graph5.1 道德图(Moral Graph)首先我们需要知道,为什么要有Moral Graph 的存在?Moral Graph 存在的意义就是将有向图转化为无向图来研究。因为无向图比有向图更加的Generalize 一些。在概率图中,我们可以分为贝叶斯网络(有向图) 和马尔可夫网络(无向图)。无向图可以表示为:p(x)=1z∏i=1kϕci原创 2020-06-05 12:56:32 · 4078 阅读 · 3 评论 -
9 概率图模型(三):推断
推断(Inference) 这个词,对于有一定机器学习基础的同学来说,一定是听说过,这也是贝叶斯方法中一个非常重要的理论性研究。那么什么是推断呢?推断说白了,就是求概率。比如,对于一个联合概率密度函数p(x)=p(x1,x2,⋯ ,xp)p(x) = p(x_1,x_2,\cdots,x_p)p(x)=p(x1,x2,⋯,xp)。我们需要求的有哪些呢?边缘概率:p(xi)=∑x1⋯∑xi−1⋯∑xi+1⋯∑xpp(x)p\left(x_{i}\right)=\sum_{x_{1}} \cdots原创 2020-06-05 10:03:23 · 920 阅读 · 0 评论 -
11 高斯混合模型:GMM
这一章开始,我们将进入到Guassian Mixture Model (GMM) 的学习。而为什么要学习GMM 呢?这是因为单峰分布已经不能准备的反映数据的分布了。正如下面的一个分布:对于如上的数据分布来说,如果强行用单峰的Guassian Distribution 来表示这个分布,显然是可以的。但是,很明显是不合适的。会造成较大的误差,不能较好的表示整个数据的分布特征。1 模型介绍1.1 从几何的角度看从几何角度来看比较的简单,也就是多个高斯分布来取加权平均值。也就是一个混合高斯分布就是多个高斯原创 2020-06-04 00:26:44 · 1052 阅读 · 0 评论 -
10 最大期望(EM)
Expectation Maximization (EM) 算法,中文名字叫做“期望最大”算法,是用来解决具有隐变量的混合模型的参数估计(极大似然估计)。在比较简单的情况中,我们可以直接得出我们想要求得的参数的解析解,比如:MLE: p(X∣θ)p(X|\theta)p(X∣θ)。我们想要求解的结果就是:θMLE=argmaxθlogp(X∣θ)\theta_{MLE}=\mathop{argmax}\limits_\theta\log p(X|\theta)θMLE=θargmaxlogp(X∣θ)原创 2020-06-03 18:40:12 · 490 阅读 · 0 评论 -
9 概率图模型(二):无向图-马尔可夫网络(马尔可夫随机场)
上一小节中,我们分析了有向图Bayesian Network,得到了因子分解法。虽然,有向图中可以方便直观的表达条件独立性,但是它也有它的局限性。也就是我们提到的对于Head to Head 的结构来说,当中间节点被观察到的时候,反而是两端的节点是相关的。这违反了条件独立性的特点,也就是当某些变量被观察到时,其他变量之间是独立的特点,这种情况有点反常,并不太好办。但是,在无向图中就完全不会出现这样的情况,因为本来就没有方向,而且在无向图中也有类似的D-Separation 性质。1 Markov网络中的原创 2020-06-01 18:38:40 · 1370 阅读 · 0 评论 -
9 概率图模型(一):有向图-贝叶斯网络
1 背景概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些性质。1.1 概率的基本性质我们假设现在有一组高维随机变量,p(x1,x2,⋯ ,xn)p(x_1,x_2,\cdots,x_n)p(x1,x2,⋯,xn).它有两个非常基本的概率,也就是条件概率和边缘概率,以及根据这两个基本的概率,我们可以得到两个基本的运算法则:Sum Rule 和Product Rule。并且根据这两个基本的法则,我们可以推出Chain Rule 和Bayesian Rul原创 2020-06-01 15:27:51 · 1924 阅读 · 0 评论 -
8 深入了解:指数族分布
1 背景指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式: p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=1exp(A(η))h(x)exp(ηTϕ(x)) p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x)) p(x∣η)=h(x)exp(ηTϕ(x)原创 2020-05-26 14:09:48 · 3970 阅读 · 1 评论 -
7 核方法
在Support Vector Machine的章节中, 我们已经分析了支持向量机前面“两宝”,也就是间隔和对偶,而第三宝,核技巧在这里我们需要抽出来将分析。其实,我最开始学习核的时候,真的是一脸懵逼,这玩意到底是个什么鬼?来龙去脉是什么?这这节有关于Kernel Method的背景介绍中,我想分析一下,我们为什么要使用核?以及怎么用核?来给大家一个直观的感受。本小节主要从Kernel Method, Kernel Function和Kernel Trick,三个方面来进行分析和讨论,我们为什么要原创 2020-05-24 19:11:51 · 695 阅读 · 0 评论 -
6 深入浅出:支持向量机
支撑向量机(SVM)算法在分类问题中有着重要地位,其主要思想是最大化两类之间的间隔。按照数据集的特点:线性可分问题,如之前的感知机算法处理的问题线性可分,只有一点点错误点,如感知机算法发展出来的 Pocket 算法处理的问题非线性问题,完全不可分,如在感知机问题发展出来的多层感知机和深度学习这三种情况对于 SVM 分别有下面三种处理手段:hard-margin SVMsoft-margin SVMkernel MethodSVM有三宝:间隔、对偶、核技巧SVM 的求解中,大量用到了原创 2020-05-23 23:48:30 · 458 阅读 · 0 评论 -
5 降维 Dimention Reduction
我们知道,解决过拟合的问题除了正则化和添加数据之外,降维就是最好的方法。降维的思路来源于维度灾难的问题,从几何角度来看,我们知道 nnn 维球的体积为: CRn CR^n CRn 那么在球体积与边长为 2R2R2R 的超立方体比值为: limn→0CRn2nRn=0 \lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0 n→0lim2nRnCRn=0当nnn比较小的时候,数据分布还比较均匀,但是随着nnn增大,也就是维度增加的时候,数据的分布会及其不均匀,原创 2020-05-23 14:32:25 · 445 阅读 · 0 评论 -
4 线性分类
对于分类任务,线性回归模型就无能为力了,但是我们可以在线性模型的函数进行后再加入一层激活函数,这个函数是非线性的,激活函数的反函数叫做链接函数。我们有两种线性分类的方式:硬分类,我们直接需要输出观测对应的分类。这类模型的代表为:a. 线性判别分析(Fisher 判别)b. 感知机软分类,产生不同类别的概率,这类算法根据概率方法的不同分为两种a. 生成式(根据贝叶斯定理先计算参数后验,再进行推断):高斯判别分析(GDA)和朴素贝叶斯等为代表ⅰ. GDAⅱ. Naive Bayesb. 判别式原创 2020-05-20 22:38:05 · 422 阅读 · 0 评论 -
3 线性回归:最小二乘法与正则化
假设数据集为: D=(x1,y1),(x2,y2),⋯ ,(xN,yN) \mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_{N})} D=(x1,y1),(x2,y2),⋯,(xN,yN) 后面我们记: X=(x1,x2,⋯ ,xN)T=(x1Tx2T⋮xpT)=(x11x21…x1px21x22…x2p⋮⋮⋮⋮xp1xp2…xpp)N∗p,Y=(y1,y2,⋯ ,yN)T=(y1y2⋮yp)N∗1 X=(x_1,x_2,\cdots,x_N)原创 2020-05-20 20:40:05 · 4435 阅读 · 0 评论