判别式分类器vs生成式分类器:逻辑回归和朴素贝叶斯的比较

本文是二货算法妇女对ng和Jordan的神论文《On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes》的翻译式理解。
由于在看这篇论文时还没有仔细看过VC 界和VC维,翻译起来很吃力,也理解很不到位,很多公式都不理解。各位不喜随便喷。

下面是我对论文的机械式理解。

*******************************我是分界线******************************

概述

本文通过逻辑回归和朴素贝叶斯比较判别式学习方法和生成式学习方法。实验结果表明,和广泛的认知相反,判别式分类器才是首选的。当训练集增加,尽管两种算法都会表现更好,但效果好的表现形式却是不同的。从反复实验中观察到,训练集增加后,判别式方法会达到更低的渐进误差,而生成式方法会更快的达到渐进误差,但这个误差比判别方法的渐进误差大。

介绍

生成式分类器学习得到输入数据x和标签y的联合概率模型p(x,y),然后通过贝叶斯规则,预测p(y|x),然后选出最可能的标签y。判别分类器直接学习后验p(y|x),或者直接学习从输入数据x到类别的计算图。用判别式方法比生成式方法好有几个很强的原因,其中一个简单引用Vapink文章中的话说,“当我们能直接解决一个分类问题时,绝不通过解决一个更通用的问题作为解答问题的中间步骤”。事实上,抛开计算复杂度和数据的缺失的话,更强的结论是:判别方法比生成方法更优先考虑。
另外一个重要而通俗的结论是训练模型需要的样本数量经常和模型的独立(free)参数大致呈线性关系。从“大量”模型中观察到以上结论的理论基础。VC维(这又是一大块知识点,菜鸟妞还没有看过呢)和参数数量呈粗略的线性或者最多是低序的多项式,并且,判别方法设定的(discriminative setting?)样本复杂度和VC维呈线性。
这篇文章从实验和理论上论证上述观点的正确性。调整(fit)概率模型p(x,y)的参数族既可以优化联合概率,也可以优化条件概率p(y|x),甚至可以统一设定p(y|x)的阈值最小化二项分类的训练误差,从而用于预测。
给定一个用规则1调整的分类器这里写图片描述和一个用另外的规则调整的模型这里写图片描述,两个模型有同样的参数族,把这里写图片描述这里写图片描述称为“生成-判别对”(Generrative-Discriminative pair)。例如,如果p(x|y)服从高斯分布,p(y)是多项式,那么“生成-判别对”是高斯判别分析和逻辑回归。类似的,这个例子离散化后,就是著名的朴素贝叶斯分类器和逻辑回归形式的“生成-判别对”(G-D pair)。
对比生成式学习和判别式学习,自然就重点关注G-D pair。本文通过朴素贝叶斯模型和它的判别搭档——逻辑回归来展示:(当训练样本较大时)生成式模型的渐进误差确实比判别式模型的大,同时,生成式模型收敛到渐进误差的速度也比判别式模型快,这里,数据集的大小和参数的数量是呈对数关系,而不是线性的。经验告诉我们:随着训练样本的增加,会出现两个完全不同的效果:生成模型在收敛速度上表现更好,而判别模型渐进误差的值更小。

准备工作

假定有一个二分类任务,数据是离散的。
假定输入是n维的,每一维的取值只有0和1,这里写图片描述 ,输入是朴素的(各维相互独立)。
输出标签的取值也只有两项,这里写图片描述 ,并且有一个基于这里写图片描述 的联合分布这里写图片描述 的训练集 这里写图片描述,从中选取m个样本。
生成式的朴素贝叶斯(NB)用S来计算这里写图片描述这里写图片描述的估计这里写图片描述这里写图片描述 ,如下式:
这里写图片描述
这里写图片描述的计算方式和这里写图片描述类似。其中,#s{.}表示在训练集S中计算事件 这里写图片描述发生的样本个数,当l=0,分子就是联合概率的经验估计,而l通常设置为正值,例如1,这是概率的拉普拉斯平滑。对测试样本x进行分类时,朴素贝叶斯分类器这里写图片描述:当且仅当下面的公式的值为正,在这里写图片描述 预测这里写图片描述
这里写图片描述
以上结论对连续输入数据一样适用。
这里写图片描述 服从单变量高斯分布,分布的参数为这里写图片描述这里写图片描述 。参数通过最大似然函数来优化。那么 这里写图片描述是训练集中标签为y=b的所有样本的第i维特征的经验均值(通常将这里写图片描述这里写图片描述 称为真实的均值和方差)。
无论是离散的还是连续的实例中,朴素贝叶斯的判别式搭档都是逻辑回归。逻辑回归的参数设定为[β,θ],条件概率函数为这里写图片描述 ,在测试样本x上,判别式的逻辑回归分类器这里写图片描述:当且仅当线性判别式方程
这里写图片描述
的取值为正时,可预测这里写图片描述
对于判别式模型来说,既可以通过在训练集上最大化条件似然函数这里写图片描述 来优化参数[β,θ],也可以通过最小化0-1训练误差这里写图片描述 来优化参数。其中,1{.}表示指示函数(这里写图片描述 )。在0-1分类器中,后者计算的误差更真实,后者才是真正的逻辑回归的误差。但是对数似然函数经常被当作后者(训练误差)的粗略估计。在本文当中,我们几乎吧两者的差异忽略了,为了避免滥用专业术语,这里申明,本文松散的将两种方法都称作逻辑回归。但是在正式的数据分析中,逻辑回归使用的优化条件是这里写图片描述
最后说明,本文使用这里写图片描述 表示线性分类器族,并将分类器这里写图片描述 的误差定义为
这里写图片描述

算法

逻辑回归还是朴素贝叶斯都是线性分类器,当分布这里写图片描述 中的两种类型并不是线性可分的,这两种都不能很好的分类。而在这里,我们的目标是对比两者在稳定到渐进误差上的表现,而不那么在意它们的渐进误差会达到的具体值,因此,采用的数据集是不可知论的。
还有就是, 这里写图片描述采用最流行版本的朴素贝叶斯分类器,参数为这里写图片描述 ,同样, 这里写图片描述也采用最流行版本的逻辑回归。
先直接给出下面两个命题吧:
这里写图片描述
命题1表明:稳定后,判别式逻辑分类的误差小于生成式的朴素贝叶斯的误差。不难发现, 这里写图片描述转换成这里写图片描述 ,它在收敛后表现不会比朴素贝叶斯差,其中这里写图片描述 是线性分类器中的一个。
这个命题似乎给判别式分类器比生成式分类器好提供了基础。
命题2是另一个标准结果,它是Vapnik的逻辑回归的统一收敛性的直接应用,采用了这里写图片描述 有VC维n(VC维需要看看)。这个命题表明判别式学习所用的样本的复杂度(模型逼近渐进误差所需的样本的数量)最多不超过n(n到底是怎样的存在?)。最差的样本复杂度为n的下界。(一头雾水)
上面的结论可以理解简单的理解为:线性分类器的误差会收敛到最佳状态,当用差不多n个样本时,收敛完成。那么生成式学习呢?尤其是贝叶斯分类器所需的样本量呢?
有以下定理:
这里写图片描述
证明实在超出我的能力范围,先略过了,等基础知识够了再补吧。
对于离散数据,令l=0,

样本的数量只需要和n呈对数关系,而不是线性,生成式分类器这里写图片描述就可以逼近渐进值这里写图片描述 ,也就是说只需要这里写图片描述 个样本就可以训练朴素贝叶斯分类器,而逻辑回归是(n)。可以看出,虽然朴素贝叶斯最后逼近的渐进误差比逻辑回归大,但是它在更少的样本下就可以收敛到渐进误差,而且两者对样本复杂度的需求相差较大,朴素贝叶斯需要这里写图片描述 而逻辑回归需要这里写图片描述
一种判断这里写图片描述 逼近于这里写图片描述 的方法是这里写图片描述这里写图片描述 的预测结果相同。这里写图片描述这里写图片描述 的分类函数,这里写图片描述这里写图片描述 的分类函数,对每个样本,这里写图片描述这里写图片描述 的值都同时为正或者同时为负,那么表明 这里写图片描述这里写图片描述 做出同样的预测。只要这里写图片描述 离0很远,那么即使这里写图片描述 有小小的摄动,这里写图片描述这里写图片描述 也是一样的。因此,并不是两者的值一样,只要两者都在0的同一边就算作出相同的预测。

这里写图片描述
这个定理的重点是为了让边界非零,当这里写图片描述 很小时, 这里写图片描述必须要很小。这里写图片描述 的上界限是 这里写图片描述,其中,x是随机变量,它的分布由这里写图片描述 决定, 这里写图片描述有可能和0很接近。从下面的命题可以获得一些对这些随机变量的基本判断:
这里写图片描述

这里写图片描述

这里写图片描述

实验

这里写图片描述
这里写图片描述
这里写图片描述

对UCI机器学习仓库中的15个数据集做实验的结果,15个训练集中8个连续数据集,7个离散数据集。实线是朴素贝叶斯的收敛曲线,虚线是逻辑回归的收敛曲线。
从实验可以看出,通常一开始,朴素贝叶斯表现的更好,但是随着样本数量的增加,大部分逻辑回归模型的误差会更小。从实验图中看到,有5个模型,逻辑回归的误差并不比朴素贝叶斯小,这是因为选择的m还不够大,对这类分类,逻辑回归还没有完全逼近渐进误差。

讨论

Efron([2])也分析了逻辑回归和高斯判别分析,并得出结论逻辑回归受统计影响很小,这点和本文的结果一致,但有一个很不同的地方是,本文假定这里写图片描述 服从高斯分布,该高斯分布的协方差矩阵是对角矩阵,而Efron将这里写图片描述 服从的高斯分布的协方差定为全协方差矩阵。在这里,如果训练样本小于n的线性量级,高斯判别分析的收敛的并不比逻辑回归快。另一点,由于Efron在这里写图片描述 用的是真正的高斯分布,因此,对于一般的案例,结论并不适用,因为只有当这里写图片描述 下,逻辑回归才是更优的选择。而事实上,从本文的实验来看,对于大部分案例,结论都是适用的。

实践中,分类算法通常都会涉及到正则化,尤其是逻辑回归,实践中通过L1约束来衰减参数,或者通过不同的方式做平均。这些正则化技术被看做是改变模型的方法族。对于本质的生成-判别对,我们要更清晰的了解在什么条件下,生成式模型和判别模型可以发挥更好作用,这样才能根据条件设计出更好的混合模型。
最后,本文的重点是讨论朴素贝叶斯和逻辑回归,但我们可以拓展到别的模型的分析,包括生成-判别对模型、受限的贝叶斯网络模型等。

***************************************我是分界线***********************
由于很多知识不太懂,专门去看了NTU的公开课《机器学习基石》,结果在后四节还是没有完全吸收。VC维、VC界还需要进一步学习啊。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值