【用户指南|监督学习】1.2-线性和二次判别分析

线性判别分析(Linear Discriminant Analysis)(discriminant_analysis.LinearDiscriminantAnalysis) 和 二次判别分析(Quadratic Discriminant Analysis)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是两个经典的分类器。 正如他们名字所描述的那样,他们分别代表了线性决策平面和二次决策平面。

这些分类器十分具有吸引力,因为他们可以很容易计算得到闭式解(即解析解),其天生具有多分类的特性,在实践中已经被证明很有效,并且无需调参。

在这里插入图片描述

以上这些图像展示了线性判别分析(Linear Discriminant Analysis) 以及二次判别分析(Quadratic Discriminant Analysis) 的决策边界。其中,最后一行表明了线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次边界,因此它相对而言更加灵活。

示例: LDA和QDA在特定数据上的对比 Linear and Quadratic Discriminant Analysis with covariance ellipsoid

1. 使用线性判别分析来降维

discriminant_analysis.LinearDiscriminantAnalysis 过把输入的数据投影到由最大化类之间分离的方向所组成的线性子空间,可以执行有监督降维(详细的内容见下面的数学推导)。输出的维度必然会比原来的类别数量更少的。因此它总体而言是十分强大的降维方式,同样也仅仅在多分类环境下才能感觉到。

实现方式在 discriminant_analysis.LinearDiscriminantAnalysis.transform 中。关于维度的数量可以通过 n_components 参数来调节。 值得注意的是,这个参数不会对 discriminant_analysis.LinearDiscriminantAnalysis.fit 或者 discriminant_analysis.LinearDiscriminantAnalysis.predict产生影响。

示例: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异 Comparison of LDA and PCA 2D projection of Iris dataset

2. LDA 和 QDA 分类器的数学公式

LDAQDA 都是源于简单的概率模型,这些模型对于每一个类别 k k k 的相关分布 P ( X ∣ y = k ) P(X|y=k) P(Xy=k) 都可以通过贝叶斯定理所获得。

我们选择最大化条件概率的类别 k k k

更具体地说,对于线性以及二次判别分析, P ( X ∣ y ) P(X|y) P(Xy) 被建模成密度多变量高斯分布:

其中的 d d d 是特征数量。

为了把该模型作为分类器使用,我们只需要从训练数据中估计出类的先验概率 P ( y = k ) P(y=k) P(y=k) (通过每个类 k k k 的实例的比例得到) 类别均值 μ k \mu_k μk (通过经验样本的类别均值得到)以及协方差矩阵(通过经验样本的类别协方差或者正则化的估计器 estimator 得到: 见下面的 shrinkage 章节)。

LDA 中,每个类别 k k k 的高斯分布共享相同的协方差矩阵: Σ k \Sigma_k Σk。这导致了两者之间的线性决策面,这可以通过比较对数概率比看出来。

QDA 中,没有关于高斯协方差矩阵 Σ k \Sigma_k Σk 的假设,因此有了二次决策平面。

注意: 与高斯朴素贝叶斯的关系

如果在QDA模型中假设协方差矩阵是对角的,则输入被假设为在每个类中是条件独立的,所得的分类器等同于高斯朴素贝叶斯分类器 naive_bayes.GaussianNB 相同。

3. LDA 的降维数学公式

为了理解 LDA 在降维上的应用,从上面解释的 LDA 分类规则的几何重构开始是十分有用的。我们用 K 表示目标类别的总数。 由于在 LDA 中我们假设所有类别都有相同估计的协方差 Σ \Sigma Σ,所以我们可重新调节数据从而让协方差相同。

在缩放之后对数据点进行分类相当于找到与欧几里得距离中的数据点最接近的估计类别均值。但是它也可以在投影到 K − 1 K-1 K1 个由所有类中的所有 μ k ∗ \mu^*_k μk 生成的仿射子空间 H K H_K HK 之后完成。这也表明,LDA 分类器中存在一个利用线性投影到 K − 1 K-1 K1 个维度空间的降维工具。

通过投影到线性子空间 H L H_L HL 上,我们可以进一步将维数减少到一个选定的 L L L ,从而使投影后的 μ k ∗ \mu^*_k μk 的方差最大化(实际上,为了实现转换类均值 μ k ∗ \mu^*_k μk,我们正在做一种形式的 PCA)。这里的 L L L 对应于 discriminant_analysis.LinearDiscriminantAnalysis.transform 方法中使用的 n_components 参数。

4. Shrinkage(收缩)

收缩是一种在训练样本数量相比特征而言很小的情况下可以提升的协方差矩阵预测(准确性)的工具。在这个情况下,经验样本协方差是一个很差的预测器。收缩 LDA 可以通过设置 discriminant_analysis.LinearDiscriminantAnalysis 类的 shrinkage 参数为 auto 来实现。

收缩参数(shrinkage parameter) 的值同样也可以手动被设置为 0-1 之间。特别地,0 值对应着没有收缩(这意味着经验协方差矩阵将会被使用), 而 1 值则对应着完全使用收缩(意味着方差的对角矩阵将被当作协方差矩阵的估计)。设置该参数在两个极端值之间会估计一个(特定的)协方差矩阵的收缩形式)。

5. 预估算法

默认的 solversvd。它可以进行分类(classification) 以及转换(transform),而且它不会依赖于协方差矩阵的计算(结果)。这在特征数量特别大的时候十分具有优势。然而,svd solver 无法与 shrinkage (收缩)同时使用。

lsqr solver 则是一个高效的算法,它仅用于分类使用。它支持 shrinkage(收缩)。

eigen(特征) solver 是基于类散度(class scatter)与类内离散率(class scatter ratio)之间的优化。 它可以被用于分类以及转换,此外它还同时支持收缩。然而,该解决方案需要计算协方差矩阵,因此它可能不适用于具有大量特征的情况。

示例: Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

参考资料:

  • [3] “The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.
  • [4] Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值