基于matlab的fisher线性判别及感知器判别_线性和二次判别分析

线性判别分析(discriminant_analysis.LinearDiscriminantAnalysis)和二次判别分析(discriminant_analysis.QuadraticDiscriminantAnalysis)是两个经典的分类器。 正如他们名字所描述的那样,他们分别代表了线性决策平面和二次决策平面。

这些分类器十分具有吸引力,因为它们可以很容易计算得到闭式解(即解析解)。其本身具有多分类的特性,在实践中已经被证明很有效,而且无需调节超参数。

23a491c6faf5bf3060ec67b8b472d009.png

以上这些图像展示了线性判别分析以及二次判别分析的决策边界。其中,最后一行表明了线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次边界,因此它相对而言更加灵活。

示例: Linear and Quadratic Discriminant Analysis with covariance ellipsoid:LDA和QDA在特定数据上的对比

1.2.1. 使用线性判别分析来降维

discriminant_analysis.LinearDiscriminantAnalysis 通过把输入的数据投影到由最大化类间分离所组成的线性子空间,来执行有监督降维(详细的内容见下面的数学推导部分)。输出的维度必然会比原来的类别数量更少的。因此它总体而言是十分强大的降维方式,同样也仅仅在多分类环境下才能感觉到。

实现方式在 discriminant_analysis.LinearDiscriminantAnalysis.transform 中。关于维度的数量可以通过 n_components 参数来调节。 值得注意的是,这个参数不会对 discriminant_analysis.LinearDiscriminantAnalysis.fit 或者 discriminant_analysis.LinearDiscriminantAnalysis.predict 产生影响。

示例: Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异

1.2.2. LDA 和 QDA 分类器的数学公式

LDA 和 QDA 都是源于简单的概率模型,这些模型对于每一个类别

c1792fe23404723045b4479ab3f767d2.png

的相关分布

9e458bc47e6795503034cff4c4849416.png

都可以通过贝叶斯定理所获得:

1ae25791f50468f6c3c3ddef2adaaf82.png

我们选择最大化条件概率的类别

c1792fe23404723045b4479ab3f767d2.png

更具体地说,对于线性以及二次判别分析,

713bcbf5270525865ce2f3b2799a9bb3.png

被建模成密度多变量高斯分布:

492d4f151c0e53fc6e7f74a69eb4f8b6.png

其中的

40aa73428e26303bc3816b4b16c4a106.png

是特征的数量。

为了把该模型作为分类器使用,我们只需要从训练数据中估计出类的先验概率

af08e19df88c4a94c317da10128af213.png

(通过每个类

c1792fe23404723045b4479ab3f767d2.png

的实例的比例得到),类别均值

d01d6362ee1b89c50479ab428f080efa.png

(通过经验样本的类别均值得到),以及协方差矩阵(通过经验样本的类别协方差或者正则化的估计器 estimator 得到:见下面的 shrinkage 章节)。

在 LDA 中,每个类别的高斯分布共享相同的协方差矩阵:

9ef9a2d30241a0e4414715bb5221b802.png

for all

c1792fe23404723045b4479ab3f767d2.png

这导致了两者之间的线性决策面,这可以通过比较对数概率比

f140b4bbd292f0231cd8573768b2b5f9.png

看出来:

7e39c1042756e46721a318ca9cc253d0.png

在 QDA 情况中,没有关于高斯协方差矩阵

21e7f5e35553502a1c30cc174cf74fef.png

的假设,因此有了二次决策平面。更多细节见参考文献 [3]。

注意:与高斯朴素贝叶斯的关系 如果在QDA模型中假设协方差矩阵是对角的,则输入被假设为在每个类中是条件独立的,所得的分类器等同于高斯朴素贝叶斯分类器 naive_bayes.GaussianNB 。

1.2.3. LDA 的降维数学公式

为了理解 LDA 在降维上的应用,从上面解释的 LDA 分类规则的几何重构开始是十分有用的。我们用

5cd8fa4b0028cda65a2bb03d177556d9.png

表示目标类别的总数。 由于在 LDA 中我们假设所有类别都有相同估计的协方差

fd4d5d806d0e5ffacf0001001a9b6735.png

所以我们可重新调节数据从而让协方差相同。

30f4ee5768ae10d4b87d823d85c7c0de.png

在缩放之后对数据点进行分类相当于找到与欧几里得距离中的数据点最接近的估计类别均值

e44ffd0b2ed5ff410fa2cc601dbfa193.png

。但是它也可以在投影到

1d707fabeb36e864de3016ff9258b3f1.png

个由所有类中的所有

e44ffd0b2ed5ff410fa2cc601dbfa193.png

生成的仿射子空间

5c49884b3f6e2c63e826575d4ca7447d.png

之后完成。这也表明,LDA 分类器中存在一个利用线性投影到

1d707fabeb36e864de3016ff9258b3f1.png

个维度空间的降维工具。

通过投影到线性子空间

2c64c6f70e54276ab25b811c1a67113f.png

上,我们可以进一步将维数减少到一个选定的

956fec0be751ebe0c0f01a59328f316c.png

,从而使投影后的

e44ffd0b2ed5ff410fa2cc601dbfa193.png

的方差最大化(实际上为了实现转换类均值

e44ffd0b2ed5ff410fa2cc601dbfa193.png

我们正在做某种形式的 PCA)。 这里的

956fec0be751ebe0c0f01a59328f316c.png

对应于 discriminant_analysis.LinearDiscriminantAnalysis.transform 方法中使用的 n_components 参数。 详情参考参考文献 [3] 。

1.2.4. 收缩

收缩是一种在训练样本数量相比特征而言很小的情况下,提升的协方差矩阵预测准确性的工具。 在这种情景中,经验样本协方差是一个很差的预测器。收缩 LDA 可以通过设置 discriminant_analysis.LinearDiscriminantAnalysis 类的 shrinkage 参数为 ‘auto’ 来实现。这将根据 Ledoit 和 Wolf 引入的引理 [4],以解析的方式自动确定最佳收缩参数。值得注意的是,当前的收缩仅仅在solver参数为 lsqr 或 eigen 时才会起作用。

shrinkage 参数的值同样也可以手动被设置为 0-1 之间。特别地,0 值对应着没有收缩(这意味着经验协方差矩阵将会被使用),而 1 值则对应着完全使用收缩(意味着方差的对角矩阵将被当作协方差矩阵的估计)。将此参数设置为这两个极值之间的值将估计协方差矩阵的一个收缩版本。

be06e6c1c52902544b0bac1d016ef517.png

1.2.5. 预估算法

默认的 solver 是 ‘svd’。它可以进行分类)以及转换,而且它不会依赖于协方差矩阵的计算结果。这在特征数量特别大的时候十分具有优势。然而,’svd’ 解决器无法与收缩同时使用。

‘lsqr’ 解决器则是一个高效的算法,它仅用于分类问题。它支持收缩。

‘eigen’ 解决器是基于类散度与类内离散率之间的优化。 它可以被用于分类以及转换,此外它还同时支持收缩。然而该解决方案需要计算协方差矩阵,因此它可能不适用于具有大量特征的情况。

示例: [Normal and Shrinkage Linear Discriminant Analysis for classification]( https:// scikit-learn.org/stable /auto_examples/classification/plot_lda.html#sphx-glr-auto-examples-classification-plot-lda-py :有收缩和无收缩LDA分类器的比较。 参考资料: 3(1,2) “The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008. [4] Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

803fe282a172a5d700cefb0e9e737724.gif
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值