判别分析（Discriminate Analysis）

最新推荐文章于 2024-07-30 22:09:52 发布

卖山楂啦prss

最新推荐文章于 2024-07-30 22:09:52 发布

阅读量9.9k

点赞数 37

分类专栏：统计学

本文链接：https://blog.csdn.net/qq_42374697/article/details/105992187

版权

统计学专栏收录该内容

45 篇文章

订阅专栏

判别分析主要是针对有监督学习的分类问题。

这里回顾一下有监督和无监督学习

有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（ LR,SVM,BP,RF,GBDT）

也就是说：利用一组已知类别的样本，通过训练学习，得出一个分类器（最优的模型），再用这个分类器去判断未知类别样本是属于哪一类。

有监督学习常用于回归分析（连续型）和统计分类（离散型）。最典型的算法是KNN和SVM

无监督学习：对未标记的样本进行训练学习，发现这些样本中的结构知识。 (KMeans,DL)

也就是说：不知道样本数据中数据之间的关系，而是要根据样本间的相似性对样本集进行分类（聚类）或一定的模型得到数据之间的关系。

意义：对数据进行降维处理

特征提取
特征压缩：PCA

不同点：
比起监督学习，无监督学习更像是自学，让机器学会自己做事情，是没有标签（label）的。

有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。

当然，这里主要是对判别分析的理论进行整理

一、什么是判别分析

前面说到，判别分析就是一种分类方法，即判别样本所属类别的一种统计方法。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。

而聚类分析是事先并不知道分类标准，属于无监督学习，它是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归为不同类。

举个简单的例子：
下面是随便构造的数据，利用已知类别的样本，为未知样本判类，即根据语文成绩、数学成绩、英语成绩等多种指标来判定最后两个学生所属类型

语文	数学	英语	类别
90	99	95	优秀
80	83	70	良好
89	89	99	优秀
52	44	65	不合格
70	68	82	良好
91	94	82	优秀
54	62	12	不合格
77	72	81	待判
98	60	73	待判

二、判别方法

根据判别方法的不同，主要有以下四种方法：

（1）距离判别法
（2）Fisher判别法
（3）贝叶斯判别法
（4）逐步判别法

2.1 距离判别法

距离判别的基本思想是: 若样本与第 i 类总体的重心距离最近，就认为它来自第 i 类，因此，距离判别也称为直观判别法。

距离判别法，对各类（或总体）的分布，并无特定的要求。

2.1.1 马氏距离

距离判别的最直观的想法是计算样品到第 i 类总体的平均数的距离，哪个距离最小就将它判归哪个总体，所以，考虑构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。

设从期望 $\mu =\left( \mu _1,\mu _2,\cdots ,\mu _m \right) '$ 和方差阵 $\varSigma =\left( \sigma _{ij} \right) _{m\times m}>0$ 的总体G中抽取两组观测值
$\mathbf{x}=\left( x_1,x_2,\cdots ,x_m \right) '$
$\mathbf{y}=\left( y_1,y_2,\cdots ,y_m \right) '$

则X与Y之间的马氏距离定义为：
$d^2\left( \mathbf{x,y} \right) =\left( \mathbf{x}-\mathbf{y} \right) '\varSigma ^{-1}\left( \mathbf{x}-\mathbf{y} \right)$

样本 X 和 $G_i$ 类之间的马氏距离定义为 X 与 $G_i$ 类重心间的距离：
$d^2\left( \mathbf{x,}G_i \right) =\left( \mathbf{x}-\mu _i \right) '\Sigma ^{-1}\left( \mathbf{x}-\mu _i \right) \begin{matrix} & i=1,2,\cdots ,k\\ \end{matrix}$

马氏距离和欧式距离之间的差别:

马氏距离:
$d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\Sigma ^{-1}\left( x-\mu \right)$
欧式距离:
$d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\left( x-\mu \right)$
因此、马氏距离有如下的特点：

马氏距离不受计量单位的影响
马氏距离是标准化后的变量的欧式距离

2.1.2 两个总体距离判别法

1、协方差相等，即 $\varSigma _1=\varSigma _2=\varSigma$

先考虑两个总体的情况，设有两个正态总体（或称两类） $G_1$ 、 $G_2$ ，对给定的样本Y，判别这个样本 Y 到底是来自哪一个总体，一个最直观的想法是计算Y到两个总体的距离。故用马氏距离来给定判别规则，有：

首先计算 X 到 $G_1$ 、 $G_2$ 总体的距离，按距离最近准则判别归类，则可写成：
$\left\{ \begin{array}{l} \mathbf{y}\in G_1\text{，即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{，即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判，即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right.$

这里， $\mu _1\text{，}\mu _2\text{，}\varSigma _1\text{，}\varSigma _2$ ，分别为总体 $G_1$ 和 $G_2$ 的均值和协方差阵：
$\begin{array}{l} d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _1 \right)\\ \end{array}=2\left[ \mathbf{y}-\frac{\left( \mu _1+\mu _2 \right)}{2} \right] '\Sigma ^{-1}\left( \mu _1-\mu _2 \right)$

令
$\bar{\mu}=\frac{\mu _1+\mu _2}{2}\text{，}\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) =\left( a_1,a_2,\cdots ,a_p \right) '$

则可以写成

$W\left( \mathbf{y} \right) =\left( \mathbf{y}-\bar{\mu} \right) '\alpha =\alpha '\left( \mathbf{y}-\bar{\mu} \right) =\mathbf{\alpha 'y}-\mathbf{\alpha '\bar{\mu}}$
则前面的判别法则表示为
$\left\{ \begin{array}{l} \mathbf{y}\in G_1\begin{matrix} \text{，即}& W\left( \mathbf{y} \right) >0\\ \end{matrix}\\ \\ \mathbf{y}\in G_2\text{，}\begin{matrix} \text{即}& W\left( \mathbf{y} \right) <0\\ \end{matrix}\\ \\ \text{待判，即}W\left( \mathbf{y} \right) =0\\ \end{array} \right.$

当 $\mu _1\text{，}\mu _2\text{，}\varSigma _1\text{，}\varSigma _2$ 已知时， $\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right)$ 是一个已知的p维向量，，当它们未知时，可通过样本来估计。

这个规则取决于 W(y) 的值，通常称 W(y) 为判别函数，由于它是的线性函数，又称为线性判别函数， $\alpha$ 称为判别系数（类似于回归系数）。线性判别函数使用起来最方便，在实际应用中也最广泛。

2、当总体的协方差已知，且不相等，即 $\varSigma _1\ne \varSigma _2$

$\left\{ \begin{array}{l} \mathbf{y}\in G_1\text{，即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{，即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判，即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right.$
这里用
$W\left( \mathbf{y} \right) =d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\Sigma _2^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\Sigma _1^{-1}\left( \mathbf{y}-\mu _1 \right)$

作为判别函数，这时它是 y 的二次函数

2.1.3 多个总体距离判别法

1、协差阵相等
设有 k 个总体 $G_1,G_2,\cdots ,G_k$ ，它们的均值分别是 $\mu _1,\mu _2,\cdots ,\mu _k$ ，协方差阵均为 $\varSigma$ 。类似两个总体的讨论，判别函数为：
$W_{ij}=\left( y-\frac{\left( \mu _i+\mu _j \right)}{2} \right) '\varSigma ^{-1}\left( \mu _i-\mu _j \right) \text{，}i,j=1,2,\cdots ,k$
相应的判别规则是：
$\left\{ \begin{array}{l} y\in G_i\text{，即}W_{ij}\left( y \right) >0\text{，}\forall j\ne i\\ \\ \text{待判，即某个}W_{ij}\left( y \right) =0\\ \end{array} \right.$

当 $\mu _1,\mu _2,\cdots ,\mu _k$ ， $\varSigma$ 未知时，可通过样本进行估计。

2、协差阵不等
这时判别函数为
$W_{ij}\left( y \right) =\left( x-\mu _i \right) '\varSigma _i^{-1}\left( x-\mu _i \right) -\left( x-\mu _j \right) '\varSigma _j^{-1}\left( x-\mu _j \right)$
判别规则为
$\left\{ \begin{array}{l} y\in G_i\text{，即}W_{ij}\left( y \right) <0\text{，}\forall j\ne i\\ \\ \text{待判，即某个}W_{ij}\left( y \right) =0\\ \end{array} \right.$

2.2 Bayes判别法

距离判别只要求知道总体的特征量(即参数)—均值和协差阵,不涉及总体的分布类型，当参数未知时,就用样本均值和样本协差阵来估计。因此，距离判别是一种十分简单实用，结论明确的方法，但该方法也有缺点:

该判别法与各总体出现的机会大小(先验概率)完全无关；
判别方法没有考虑错判造成的损失,这是不合理的。

总的来说，就是距离判别的方法把总体等同看待，没有考虑到总体会以不同的概率（先验
概率）出现，也没有考虑误判之后所造成的损失的差异。

因此，使用 Bayes判别法可以很好的解决上述两个问题

2.2.1 Bayes的统计思想

贝叶斯统计学与经典统计学的差别在于，贝叶斯统计在重视使用总体信息、样本信息的同时，还十分重视先验信息的收集、挖掘和加工，使它数量化，形成先验分布，参加到统计推断中来。先验信息就是抽样之前有关统计问题的一些信息，先验信息一般来源于经验和历史资料。

贝叶斯统计的基本思想：任一未知量 $\theta$ 都可看作随机变量，根据经验或者历史资料，用一个概率分布去描述，这个分布称为先验分布；在获得样本之后，用样本来修正已有的认识(先验概率分布)，得到后验概率分布 $\pi \left( \theta |x \right)$ 。后面的各种统计推断都基于这个后验概率分布来进行。

后验分布 $\pi \left( \theta |x \right)$ 集中了总体、样本和先验中有关 $\theta$ 的一切信息,而又是排除一切与 $\theta$ 无关的信息之后得到的结果。
$P\left( B_i|A \right) =\frac{P\left( A|B_i \right) P\left( B_i \right)}{\Sigma P\left( A|B_i \right) P\left( B_i \right)}$

$\pi \left( \theta |x \right) =\frac{h\left( x,\theta \right)}{m\left( x \right)}=\frac{f\left( x|\theta \right) \pi \left( \theta \right)}{\int_{\Theta}{f\left( x|\theta \right) \pi \left( \theta \right) d\theta}}$

关于贝叶斯统计的知识，后面自己还会总结

设有 k 总体 $G_1,G_2,\cdots ,G_k$ ， $G_i$ 具有具有概率密度函数 $f_i\left( x \right)$ 。并且根据以往的统计分析（经验或历史资料），知道 $G_i$ 出现的概率为 $q_i$ 。即当已知样本 $x_0$ 发生时，求它属于 $G_i$ 类的概率。由贝叶斯公式计算后验概率，有：

$P\left( G_i|x_0 \right) =\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}$

判别规则：
$P\left( G_h|x_0 \right) =\frac{q_hf_h\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}=\underset{1\le i\le k}{\max}\left\{ P\left( G_i/x \right) \right\} =\underset{1\le i\le k}{\max}\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}$

则 $x_0$ 判给 $G_h$ 。在正态的假定下， $f_h\left( x \right)$ 为正态分布的密度函数。

特别de ，若总体服从正态分布，则
$q_{\text{h}}f_h\left( x_0 \right) =\underset{1\le i\le k}{\max q_if_i\text{(}x_0\text{)}}$

则 $x_0$ 判给 $G_h$

2.2.2 多元正态总体的Bayes判别法

在实际问题中遇到的许多总体往往服从正态分布，下面给出p元正态总体的Bayes判别法。

（1）判别函数的导出

由前面的叙述可知，使用Bayes判别法作判别分析，首先要知道待判总体的先验概率和密度函数。对于先验概率，一般用样品的频率来代替。或者令先验概率 $\pi \left( \theta \right) =1$ 或相等，这时可以认为先验概率不起作用。

设正态分布密度函数为：

$f_i\left( x \right) =\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}}$

$q_if_i\left( x \right) =q_i\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}}$

上式两边取对数并去掉与 i 无关的项，则等价的判别函数为：
$z_i\left( x \right) =\ln \left( q_if_i\left( \mathbf{x} \right) \right) =\ln q_i-\frac{1}{2}\ln\text{|}\Sigma _i|-\frac{1}{2}\left( x-\mu ^{\left( i \right)} \right) '\Sigma _{i}^{-1}\left( x-\mu ^{\left( i \right)} \right) \text{]}$

问题转化为：

若 $Z_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ Z_i\left( x \right) \right]$
则 $x$ 判给 $G_h$ 。

1、协方差相等，即 $\varSigma _1=\varSigma _2=\cdots =\varSigma _k=\varSigma$

则判别函数退化为

$z_i\left( x \right) =\ln q_i-\frac{1}{2}\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}$
$=-\frac{1}{2}\text{[}-2\ln q_i+\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)]}$

令

$\left\{ \begin{array}{l} F_i\left( x \right) =-2\ln q_i+\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\mathbf{)'}\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}\\ \\ P_i\left( x \right) =-2\ln q_i-2\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}\\ \end{array} \right.$

问题转化为

若
$P_h\left( x \right) =\underset{1\le i\le k}{\min}\left[ P_i\left( x \right) \right]$
则 $x$ 判给 $G_h$

又由
$P_i\left( x \right) =-2\left( \ln q_i-\frac{1}{2}\mu ^{\left( i \right)}\varSigma ^{-1}\mu ^{\left( i \right)}+\mu ^{\left( i \right)}\varSigma ^{-1}x \right)$

令
$m_i\left( \mathbf{x} \right) =\ln q_i-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}$

问题转化为

若

$m_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ m_i\left( x \right) \right]$
则 $x$ 判给 $G_h$

当先验概率相等， $q_1=\cdots =q_k=\frac{1}{k}$

有

$m_i\left( \mathbf{x} \right) =-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}$
完全成为距离判别法。

2.3 Fisher判别法

2.3.1 Fisher判别的基本思想

Fisher(费歇)判别的基本思想是投影，将k组m维数据投影到某一个方向，使得投影后组与组之间尽可能地分开，而衡量组与组之间是否分开的方法借助于一元方差分析的思想，利用方差分析的思想来导出判别函数，这个函数可以是线性的，也可以是一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.

该判别方法对总体的分布不做任何要求。

从两个总体中抽取具有P个指标的样品观测数据，借助于方差分析的思想构造一个线性判别函数：
$Y=C_1X_1+C_2X_2+\cdots +C_pX_p$
其中系数 $C_1,C_2,\cdots ,C_p$ 确定的原则是使两组间的组间离差最大，而每个组的组内离差最小。当建立了判别式以后，对一个新的样品值，将他的P个指标值代入判别式中求出Y值，然后与某个临界值比较，就可以将该样品归某类。

假设可以得到一个线性判别函数：
$y=c_1x_1+c_2x_2+\cdots +c_px_p$

可以把两个总体的样品代入上面的判别式
$y_{i}^{\left( 1 \right)}=c_1x_{i1}^{\left( 1 \right)}+c_2x_{i2}^{\left( 1 \right)}+\cdots +c_px_{ip}^{\left( 1 \right)}$

$y_{i}^{\left( 2 \right)}=c_1x_{i1}^{\left( 2 \right)}+c_2x_{i2}^{\left( 2 \right)}+\cdots +c_px_{ip}^{\left( 2 \right)}$
分别对上面两式左右相加，再除以样品个数，可得两个总体的重心：

$\left\{ \begin{array}{l} \bar{y}^{\left( 1 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 1 \right)}}\\ \\ \bar{y}^{\left( 2 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 2 \right)}}\\ \end{array} \right.$
最佳的线性判别函数应该是：两个重心的距离越大越好，两个组内的离差平方和越小越好。

组间离差平方和：
$\left( \bar{Y}^{\left( 1 \right)}-\bar{Y} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\bar{Y} \right) ^2=\left( \bar{Y}^{\left( 1 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2$

$=\frac{1}{4}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2+\frac{1}{4}\left( \bar{Y}^{\left( 2 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2=\frac{1}{2}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2=\frac{1}{2}\left( \mathbf{c'}\bar{X}^{\left( 1 \right)}-\mathbf{c'}\bar{X}^{\left( 2 \right)} \right) ^2$

总体内部的方差和：
$E\left( Y^{\left( 1 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2+E\left( Y^{\left( 2 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2$
$I=\frac{\text{组间离差平方和}}{\text{组内方差和}}$
$I=\frac{\frac{1}{2}\mathbf{c'}\left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) \left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) '\mathbf{c}}{\mathbf{c'}\varSigma \mathbf{c}}$
I 最小时判别函数最好

判别准则：

定义临界点为：
$y_0=\frac{n_1\bar{y}^{\left( 1 \right)}+n_2\bar{y}^{\left( 2 \right)}}{n_1+n_2}$
不妨假设：
$\bar{y}^{\left( 1 \right)}>\bar{y}^{\left( 2 \right)}$
如果由原始数据 y 求得判别函数得分为 Y*，对与一个样本代入判别函数中，若 Y*> $Y_0$ ，则判给G1，否则判给G2。