关闭

机器学习入门系列05,Classification: Probabilistic Generative Model(分类:概率生成模型)

标签: 机器学习分类高斯分布最大似然估计后验概率
968人阅读 评论(0) 收藏 举报
分类:

Gitbook整理地址:

Classification 分类

分类要找一个function,输入就是对象 x ,输出是这个对象属于n个类别的哪一个。

比如信用评分

  • 输入:收入,储蓄,行业,年龄,金融史…
  • 输出:结果或者拒绝贷款

比如医疗诊断

  • 输入:当前症状,年龄,性别,医疗史…
  • 输出:患了哪种疾病

比如手写文字辨识

又是神奇宝贝举例

分类神奇宝贝

神奇宝贝有很多的属性,比如电,火,水。要做的就是一个分类的问题:需要找到一个function,输入一只神奇宝贝,输出它是什么属性。

将神奇宝贝数值化

比如皮卡丘

  • Total:整体强度,大概的表述神奇宝贝有多强,比如皮卡丘是320.
  • HP:生命值,比如皮卡丘35
  • Attack:攻击力,比如皮卡丘55
  • Defense:防御力,比如皮卡丘40
  • SP Atk:特殊攻击力,比如皮卡丘50
  • SP Def:特殊防御力,比如皮卡丘50
  • Speed:速度,比如皮卡丘90

所以一只神奇宝贝可以用一个向量来表示,上述7个数字组成的向量。

需要预测是因为在战斗的时候会有属性相克,下面给了张表,只需要知道,战斗的时候遇到对面神奇宝贝的属性己方不知道的情况,会吃亏,所以需要预测它的属性。

如何分类?

当作回归问题处理?

假设还不了解怎么做,但之前已经学过了regression。就把分类当作回归硬解。举一个二分类的例子:

假设输入x 属于类别1,或者类别2,把这个当作回归问题:类别1就当作target是1,类别2就当作target是-1。训进行训练:因为是个数值,如果数值比较接近1,就当作类别1,如果数值接近-1,就当做类别2。这样做遇到什么问题?

左边绿色的线是分界线,绿色线左边红色点就是-1的,绿色线右边蓝色点就是1的。但是如果训练集有很多的距离远大于1的点,比如有图右下角所示,这样用回归的方式硬训练可能会得到紫色的这条。直观上就是将绿色的线偏移一点到紫色的时候,就能让右下角的那部分的值不是那么大了。但实际是绿色的才是比较好的,用回归硬训练并不会得到好结果。此时可以得出用回归的方式定义,对于分类问题来说是不适用的。(Penalize to the examples that are “too correct” …)

还有另外一个问题:比如多分类,类别1当作target1,类别2当作target2,类别3当作target3…如果这样做的话,就会认为类别2和类别3是比较接近的,认为它们是有某种关系的;认为类别1和类别2也是有某种关系的,比较接近的。但是实际上这种关系不存在,它们之间并不存在某种特殊的关系。这样是没有办法得到好的结果。

Ideal Alternatives(理想替代品)

先看二分类,将function中内嵌一个函数g(x),如果大于0,就认识是类别1,否则认为是类别2。损失函数的定义就是,如果选中某个funciton f,在训练集上预测错误的次数。当然希望错误次数越小越好。

但是这样的损失函数没办法解,这种定义没办法微分。这是有方法的,比如Perceptron(感知机),SVM,这里先不讲这些。

盒子抽球

假设两个盒子,各装了5个球,还得知随机抽一个球,抽到的是盒子1的球的概率是三分之二,是盒子2的球的概率是三分之一。从盒子中蓝色球和绿色球的分配可以得到:在盒子1中随机抽一个球,是蓝色的概率为五分之四,绿的的概率为五分之一,同理得到盒子2的信息。

现在求随机从两个盒子中抽一个球,抽到的是盒子1中蓝色球的概率是多少?(高中数学得:)

P(B1|Blue)=P(Blue|B1)P(B1)P(Blue|B1)P(B1)+P(Blue|B2)P(B2)

抽球的概率和分类有什么关系?

将上面两个盒子换成两个类别

同理知道红色方框的值,就可以计算出给一个x,它是属于哪个类型的,P(C1|x)P(C2x) ,谁大就属于谁。接下来就需要从训练集中估测红色方框中的值。

这一套想法叫做 Generative Model。因为有了这个model,就可以生成一个x,可以计算某个x出现的几率,知道了x的分布,就可以自己产生x。

P(C1|x) 是由贝叶斯(bayes)公式得到的;P(x)是由全概率公式得到的,详情见《概率论与数理统计,浙江大学,第一章》。

Prior 先验

先考虑简单的二分类,水属性或者一般属性,通过训练集的数据可以计算出 P(C1)P(C2)

下面想计算 P(x|C1)

也就是在水系的神奇宝贝中随机选一只,是海龟的概率。下面将训练集中79个水系的神奇宝贝,属性Defense 和 SP Defense进行可视化

这里假设这79点是从高斯分布(Gaussian distribution)中得到的,现在需要从这79个点找出符合的那个高斯分布。

高斯分布

下面简单说一下高斯分布:

简单点可以把高斯分布当作一个function,输入就是一个向量x ,输出就是选中 x的概率(实际上高斯分布不等于概率,只是和概率成正比,这里简单说成概率)。function由期望 μ 和协方差矩阵 Σ 决定。上图的例子是说同样的Σ,不同的 μ ,概率分布的最高点的位置是不同的。下图的例子是同样的 μ,不同的Σ,概率分布的最高点是一样的,但是离散度是不一样的。

假设通过79个点估测出了期望 μ 和协方差矩阵 Σ。期望是图中的黄色点,协方差矩阵是红色的范围。现在给一个不在79个点之内的新点,用刚才估测出的期望和协方差矩阵写出高斯分布的function fμ,Σ(x),然后把x带进去,计算出被挑选出来的概率

Maximum Likelihood(最大似然估计)

首先对于这79个点,任意期望和协方差矩阵构成的高斯分布,都可以生成这些点。当然,像图中左边的高斯分布生成这些点,比右边高斯分布生成这些点的几率要大。那给一个μΣ,它生成这79个点的概率为图中的 L(μ,Σ)L(μ,Σ)也称为样本的似然函数。

将使得 L(μ,Σ) 最大的 (μ,Σ) 记做 (μ,Σ)(μ,Σ)就是所有 (μ,Σ)Maximum Likelihood(最大似然估计)

这些解法很直接,直接对L(μ,Σ) 求两个偏微分,求偏微分是0的点。

最大似然估计更多详情参看《概率论与数理统计,浙江大学,第七章》

应用最大似然估计

算出之前水属性和一般属性高斯分布的期望和协方差矩阵的最大似然估计值。

开始分类

上图看出我们已经得到了需要计算的值,可以进行分类了。

左上角的图中蓝色点是水属性的神奇宝贝,红色点是一般属性的神奇宝贝,图中的颜色:越偏向红色代表是水属性的可能性越高,越偏向蓝色代表是水属性的可能性越低。

右上角在训练集上进行分类的结果,红色就是 P(C1|x) 大于0.5的部分,是属于类别1,相对蓝色属于类别2。右下角是放在测试集上进行分类的结果。结果是测试集上正确率只有 47% 。当然这里只处理了二维(两个属性)的情况,那在7维空间计算出最大释然估计值,此时μ是7维向量,Σ是7维矩阵。得到结果也只有54% 的正确率,so so。。。

修改model

通常来说,不会给每个高斯分布都计算出一套不同的最大似然估计,协方差矩阵是和输入feature大小的平方成正比,所以当feature很大的时候,协方差矩阵是可以增长很快的。此时考虑到model参数过多,容易Overfitting,为了有效减少参数,给描述这两个类别的高斯分布相同的协方差矩阵。

此时修改似然函数为 L(μ1,μ2,Σ)μ1,μ2 计算方法和上面相同,分别加起来平均即可;而Σ的计算有所不同。

这里详细的理论支持可以查看《Pattern Recognition and Machine Learning》Christopher M. Bishop 著,chapter4.2.2

右图新的结果,分类的boundary是线性的,所以也将这种分类叫做 linear model。如果考虑所有的属性,发现正确率提高到了73%。

三大步

将上述问题简化为前几个系列说过的三大步:

实际做的就是要找一个概率分布模型,可以最大化产生data的likelihood。

为什么是高斯分布?

可能选择其他分布也会问同样的问题。。。

有一种常见的假设

假设每一个维度用概率分布模型产生出来的几率是相互独立的,所以可以将 P(x|C1) 拆解。

可以认为每个 P(xk|C1) 产生的概率都符合一维的高斯分布,也就是此时P(x|C1) 的高斯分布的协方差是对角型的(不是对角线的地方值都是0),这样就可以减少参数的量。但是试一下这种做法会坏掉。

对于二元分类来说,此时用通常不会用高斯分布,可以假设是符合 Bernoulli distribution(伯努利分布)

假设所有的feature都是相互独立产生的,这种分类叫做 Naive Bayes Classifier(朴素贝叶斯分类器)

Posterior Probability(后验概率)

P(C1|x)整理,得到一个 σ(z),这叫做Sigmoid function。

接下来算一下z 长什么样子。

数学推导:

求得z,然后:

这里用到简单的矩阵知识,比如转置,矩阵的逆,矩阵乘法。详情可参考《高等代数》or《线性代数》;喜欢代数的,推荐丘维声著的《高等代数》,分上下册,这本书是国内代数方面的翘楚,数学系的鄙人强烈推荐。别被抄来抄去的书害了—||

化简z,x的系数记做向量wT,后面3项结果都是标量,所以三个数字加起来记做b。最后P(C1|x)=σ(wx+b)。从这个式子也可以看出上述当共用协方差矩阵的时候,为什么分界线是线性的。

既然这里已经化简为上述的式子,直观感受就是可以估测N1,N2,μ1,μ2,Σ,就可以直接得到结果了。下一篇讲述另外一种方法

参考:《Pattern Recognition and Machine Learning》Christopher M. Bishop 著 Chapter4.1 -4.2
Data: https://www.kaggle.com/abcsds/pokemon

0
0
查看评论

判别模型(Discriminative model)和生成模型(Generative model)

说明生成算法和判别算法之间的区别。判别算法主要包括:SVM,逻辑回归等;生成算法主要包括:朴素贝叶斯,HMM等
  • Fishmemory
  • Fishmemory
  • 2016-06-19 09:06
  • 7363

判别式模型与产生式模型解析(Discriminative Model vs. Generative Model)

学习Machine Learning的朋友们一定会接触到两个概念,判别式模型(DiscriminativeModel)和产生式模型(Generative Model)。很多技术贴都尝试对二者进行详细的解释,但是往往由于初学者的积累不够,不能迅速理解其中的内涵,于是本文不吝笔墨对其再进行梳理一翻,希望...
  • BluePandaz
  • BluePandaz
  • 2015-07-12 11:59
  • 1016

判别式模型和生成式模型的区别(discriminative model and generative model)

在NLP和机器学习中经常会遇到这两种显著不同的模型,在学习阶段(训练阶段)和评估阶段(测试阶段)都有不同的表现 总结一下它们之间的区别,欢迎补充: 1. 二者最本质的区别是建模对象不同    假设有样本输入值(或者观察值)x,类别标签(或者输出值)y    ...
  • amblue
  • amblue
  • 2013-11-29 14:47
  • 7052

[机器学习入门] 李宏毅机器学习笔记-18 (Deep Generative Model-part 1:深度生成模型-part 1)

[机器学习入门] 李宏毅机器学习笔记-18 (Deep Generative Model-part 1:深度生成模型-part 1) PDF VIDEOCreation 据说在费曼死后,人们在他生前的黑板上拍到如图画片,在左上角有道:What i cannot create ,I do n...
  • soulmeetliang
  • soulmeetliang
  • 2017-06-22 19:58
  • 1477

【机器学习详解】概率生成模型与朴素贝叶斯分类器

1.概率生成模型首先介绍生成模型的概念,然后逐步介绍采用生成模型的步骤。1.1概念 即对每一种类别CkC_k分别建立一种模型p(Ck|x)p(C_k|x),把待分类数据x分别带入每种模型中,计算后验概率p(Ck|x)p(C_k|x),选择最大的后验概率对应的类别。 假设原始数据样本有K类,生成学...
  • luoshixian099
  • luoshixian099
  • 2016-03-31 23:39
  • 7034

4.2 概率生成式模型

4.2 概率生成式模型1、生成式现在我们从概率的角度考虑分类问题。方法是对类条件概率密度 p(x∣Ck)p(x \mid C_k) 和类先验概率分布 p(x)p(x) 建模,然后求出后验概率密度 p(Ck∣x)p(C_k \mid x)。 考虑一个二分类问题,类别1的后验概率可以表示为: p(C...
  • qq_35160701
  • qq_35160701
  • 2016-06-02 16:11
  • 888

生成模型与判别模型

生成模型与判别模型 zouxy09@qq.com http://blog.csdn.net/zouxy09        一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再...
  • zouxy09
  • zouxy09
  • 2012-11-17 23:24
  • 72316

机器学习---生成模型与判别模型

生成模型(Generative Model)是相对于判别模型(Discriminative Model)定义的。他们两个都用于有监督学习。监督学习的任务就是从数据中学习一个模型(也叫分类器),应用这一模型,对给定的输入X预测相应的输出Y。这个模型的一般形式为决策函数Y=f(X)或者条件概...
  • u012101561
  • u012101561
  • 2016-10-14 11:31
  • 715

机器学习中的判别模型和生成模型

两个模型是啥我们从几句话进入这两个概念: 1、机器学习分为有监督的机器学习和无监督的机器学习; 2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器,无监督的机器学习就是不知道训练集的类别情况来训练分类器; 3、所以说,有监督的机器学习可以抽象为一个分类task,而无监督的基本完成的是...
  • lk7688535
  • lk7688535
  • 2016-08-29 15:13
  • 1680

机器学习中的回归(regression)与分类(classification)问题

分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。
  • wspba
  • wspba
  • 2017-03-13 20:49
  • 5509
    个人资料
    • 访问:422656次
    • 积分:8197
    • 等级:
    • 排名:第2969名
    • 原创:401篇
    • 转载:30篇
    • 译文:11篇
    • 评论:87条
    博客专栏