生成学习算法之高斯判别分析模型

翻译 2016年08月28日 15:29:44

第四部分  生成学习算法


到目前为止,我们主要讨论了建模——给定下的的条件分布——的学习算法。例如,逻辑回归把建模成,这里是sigmoid函数。在这些讲义中,我们将讨论一种不同形式的学习算法。
考虑一个分类问题,在这个分类问题中,我们想基于一个动物的一些特征,来学习区分是大象()还是小狗()。给定一个训练集,一个诸如逻辑回归或感知器的算法(基本上)试图找到一条直线—也就是一个分界线—来分离大象和狗。然后,为了把一个新动物归类成大象或者小狗,要检查它落在了边界线的哪一侧,相应地做出预测。
这里有一个不同的方法。首先,看大象,我们可以建立一个大象看起来像什么的模型。然后,看小狗,我们可以建立一个不同的小狗看起来像什么的模型。最后,为了把一个新动物分类,我们可以把它和大象模型相比配,而且把它和小狗模型相比配,来看那个新动物是看起来更像我们训练集中的大象,还是更像我们训练集中的小狗。
试图直接学习的算法(例如逻辑回归)或试图学习从输入空间直接映射到标签的算法(如感知器算法),被称作判别学习算法(discriminative learing algorithms)。这里,我们反而将讨论试图建模(和)的算法。这些算法被称作生成学习算法(generative learing algorithms)。比如,如果表示一个样例是一只小狗(0)或者一只大象(1),然后是小狗特征分布的模型,是大象特征分布的模型。
建完模型(称作类的先验(class priors))和,我们的算法然后可以使用贝叶斯公式来推导给定时的的后验分布:


这里,分母由给出(你应该能够核实这是标准的概率性质),因此也可以根据我们学习的项表示出来。实际上,如果我们在为了做出预测而计算,然后我们实际上不需要计算分母,因为



1  高斯判别分析
我们将要看的第一个生成学习算法是高斯判别分析(GDA)。在这个模型中,我们将假定服从多元正态分布。在继续讨论GDA模型本身之前,让我们简单的谈一下多元正态分布的特征。
1.1 多元正态分布
n维的多元正态分布,也称作多元高斯分布,是由一个均值向量(mean vector)和一个协方差矩阵(covariance matrix)参数化的,这里,是对称的和半正定的。也写作,它的密度由


给出。在上面的等式中,表示矩阵的行列式。
对于一个服从的随机变量,(毫无令人意外)均值由给出


一个向量值随机变量Z的协方差被定义为。这推广了一个实数值随机变量的方差的符号。协方差也可以被定义成。(你应该能够向自己证明这两个定义是相等的。)如果,那么


这里有一些高斯分布的密度看起来像什么的例子:




最左边的图形显示了一个零均值(即,2 x 1的0-向量)和协方差矩阵(2 x 2的单位矩阵)的高斯分布(的密度)。一个具有零均值和单位协方差(阵)的高斯分布也被称为标准正态分布(standard normal distribution)。中间的图形显示了一个具有零均值和的高斯分布的密度;最右边的图形显示了一个零均值和的高斯分布的密度。我们看到,随着变得更大,高斯分布变得更“分散”,当它变得更小,分布变得更“压紧”的。
让我们再看一些例子。


上面的图形显示了0均值和协方差矩阵分别为



的高斯分布。最左边的图形显示了熟悉的标准正态分布,我们看到当我们增加中的非对角元素,沿45°直线(由给出的)密度变得更“压紧”。当我们看相同三个密度的轮廓时,我们可以更清晰地看到这些:



这里是最后一组通过变化产生的例子。


上边的图形分别使用了


从最左边和中间的图形,我们看到通过减小协方差矩阵的对角线元素,密度现在再次变得“压紧的”,但是是相反的方向。最后,当我们改变参数,轮廓一般会形成椭圆形的(最右边的图形显示了这样一个例子)。
作为我们最后一组例子,固定,通过改变,我们也可以在周围移动密度的均值。


上面的图形由,均值向量分别为


所生成的。


1.2 高斯判别分析模型
当我们有一个输入特征是连续值随机变量的分类问题时,我们然后可以使用高斯判别分析(GDA)模型,这个模型使用多元正态分布建模。模型为:


写出这个分布,它是:


这里,我们模型的参数是。(注意,尽管模型中有两个不同的均值,但这个模型通常被使用时只使用一个协方差矩阵。)数据的log-似然由


给出。
通过关于参数来最大化,我们发现参数的最大似然估计为:


形象地,算法在做什么如下所示:


图形中显示的是训练集,和两个已经拟合了两类数据的高斯分布的轮廓。注意,两个高斯分布有相同形状和朝向的轮廓,因为他们共有一个协方差矩阵,但是他们有不同的均值。图形中也显示了一条给出决策边界的直线,在直线上。在边界的一侧,我们预测是最有可能的结果,在另一侧,我们预测(是最有可能的结果)。


1.3 讨论:GDA和逻辑回归

GDA模型同逻辑回归有一个有趣的关系。如果我们把看作的函数,我们将会发现它可以被表示成


这样的形式
,在这里是某个合适的的函数。这恰好是逻辑回归——一个判别算法——用来建模的形式。
我们什么时候更喜欢哪个模型呢?一般而言,当训练相同的数据集时,GDA和逻辑回归将给出不同的决策边界。哪个更好?
我们刚刚表明如果服从(共有的)多元高斯分布,然后必然是一个逻辑函数。然而,逆命题是不对的;也就是说,是一个逻辑函数不一定意味着是多元高斯分布。这表明,相比逻辑回归,GDA关于数据做了更强的建模假设。事实证明,当这些建模假设是正确的,GDA将会更好的拟合数据,是一个更好的模型。明确地说,当确实是(共有的)高斯分布,然后GDA是渐进有效(asymptotically efficient)的。非正式地,这意味着在非常大的训练集中(大的m),没有算法严格地比GDA更好(就评估的精确性而言)。特别是,可以证明,在这个背景下,GDA是一个比逻辑回归更好的算法;更一般地,即使对于小规模的训练集,我们一般认为GDA会更好一些。
相比之下,通过做出明显较弱的假设,逻辑回归对不正确的建模假设也更是鲁棒和不敏感。有很多不同的假设集可以致使为一个逻辑函数的形式。比如说,如果,然后将是逻辑函数。逻辑回归对于像这样的Poisson数据也工作的不错。但是如果我们使用GDA在这样的数据上——在这样非高斯分布的数据上拟合高斯分布——那么结果将是难以预测的,GDA可能(或可能不)工作的好。
总结:GDA做了更强的建模假设,于是当建模假设是正确的或近似正确时,它是更加数据有效的(也就是需要更少的数据就可以学习“好”)。逻辑回归做了弱一些的假设,因此对于建模假设中的偏差是明显更加鲁棒的。具体地说,当数据确实不是高斯分布时,然后在大的数据集下,逻辑回归几乎总是比逻辑回归做的好。由于这个原因,在实践中逻辑回归比GDA使用的更多。(尽管关于判别vs生成模型的一些相关的考虑也适用于我们接下来要讨论的朴素贝叶斯算法,但是朴素贝叶斯算法仍被认为是一个好的,当然也是一个很受欢迎的,分类算法。)


本篇文章介绍了生成学习算法的第一个算法:判别分析算法,并且讨论了它和逻辑回归的关系。在下一小节中,我们将讲述第二个生成学习算法:朴素贝叶斯算法。

想写一写机器学习的翻译来巩固一下自己的知识,同时给需要的朋友们提供参考,鉴于作者水平有限,翻译不对或不恰当的地方,欢迎指正和建议。


相关文章推荐

斯坦福大学机器学习——高斯判别分析

同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种生成学习算法,在该模型中,我们假设y给定的情况下,x服从混合正态分布。通过训练...

Stanford机器学习课程笔记2-高斯判别分析与朴素贝叶斯

转载请注明出处: http://xiahouzuoxin.github.io/notes/判别学习算法和生成学习算法高斯判别分析(Gaussian Discriminant Analysis)朴素贝叶...

生成学习算法.高斯判别分析(GDA).GDA与Logistic模型

《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也...

斯坦福 机器学习-第二章 生成学习算法

CS229 Lecture notes 原作者:Andrew Ng(吴恩达) 翻译:CycleUser   Part IV 生成学习算法,Generative L...
  • hzp666
  • hzp666
  • 2017年08月23日 08:44
  • 172

混合高斯背景建模原理及实现(C# )

前些日子一直在忙答辩的事情,毕业后去了华为,图像处理什么的都派不上用场了。打算分3-4篇文章,把我研究生阶段学过的常用算法为大家和4107的师弟师妹们分享下。本次介绍混合高斯背景建模算法,还是老样子,...

概率图模型学习(6)——高斯网络模型1

由于最近用到了多特征高斯分布,所以提前看了这一章。 1.      多元高斯分布 个人总结高斯分布其实就三个元素:期望、方差、概率密度函数。而多元高斯分布和单高斯分布不同点在于期望由一个值变成了期...

分类:从生成模型到判别模型

在解决分类问题时,生成模型(generative model)和判别模型(discriminative model)是常用的两类模型。生成模型从数据中学习特征和标签的联合概率分布p(x,y),而判别模...

高斯判别分析算法及其python实现

高斯判别分析算法(Gaussian discriminat analysis)高斯判别算法是一个典型的生成学习算法...

决策边界 支持向量机

支持向量机(Support Vector Machine)名字听起来很炫,功能也很炫,但公式理解起来常有眩晕感。所以本文尝试不用一个公式来说明SVM的原理,以保证不吓跑一个读者。理解SVM有四个关键名...

EM算法求解高斯混合模型

高斯混合模型用EM求解public class GausssianEM { public static void main(String[] args) { int k=4,n...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:生成学习算法之高斯判别分析模型
举报原因:
原因补充:

(最多只允许输入30个字)