文章目录
分类
此时响应变量是定性的(qualitative)
为什么线性回归不可用
假设对响应变量编码:
Y
=
{
0
,
i
f
N
o
1
,
i
f
Y
e
s
Y=\begin{cases}0\ \ \ \ ,\ \ \ \ if \ No\\1\ \ \ \ ,\ \ \ \ if\ Yes\end{cases}
Y={0 , if No1 , if Yes
我们可以简单地执行Y对X的线性回归并将
Y
~
>
0.5
\tilde{Y}>0.5
Y~>0.5 归类为Yes吗?
在这种二元结果的情况下,线性回归作为一个分类器做得很好,同时有 E ( Y ∣ X = x ) = P r ( Y = 1 ∣ X = x ) E(Y|X=x)=Pr(Y=1|X=x) E(Y∣X=x)=Pr(Y=1∣X=x) 。但是,线性回归可能产生大于1或小于0的概率。逻辑回归更合适。
通常不能将一个定性的响应变量自然地转化为两水平以上的定量变量来建立线性回归模型。当响应变量没有一个自然的程度顺序,线性回归就不适合。
逻辑斯谛回归
逻辑斯谛模型
p ( X ) = e β 0 + β 1 X 1 + e β 0 + β 1 X p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}} p(X)=1+eβ0+β1Xeβ0+β1X
不管怎么取值,
p
(
X
)
p(X)
p(X) 都在。同时,有:
log
(
p
(
X
)
1
−
p
(
X
)
)
=
β
0
+
β
1
X
\log(\frac{p(X)}{1-p(X)})=\beta_0+\beta_1X
log(1−p(X)p(X))=β0+β1X
上式称为对数发生比(log odds)或分对数(logit)。
估计回归系数(ML)
用极大似然估计来估计系数:
l
(
β
0
,
β
1
)
=
∏
i
:
y
i
=
1
p
(
x
i
)
∏
i
′
:
y
i
=
0
(
1
−
p
(
x
i
′
)
)
l(\beta_0,\beta_1)=\prod_{i:y_i=1}p(x_i)\prod_{i':y_i=0}(1-p(x_{i'}))
l(β0,β1)=i:yi=1∏p(xi)i′:yi=0∏(1−p(xi′))
所估计的系数
β
0
^
、
β
1
^
\hat{\beta_0}、\hat{\beta_1}
β0^、β1^,应使似然函数值最大。
预测
p ^ ( X ) = e β ^ 0 + β ^ 1 X 1 + e β ^ 0 + β ^ 1 X \hat{p}(X)=\frac{e^{\hat{\beta}_0+\hat{\beta}_1X}}{1+e^{\hat{\beta}_0+\hat{\beta}_1X}} p^(X)=1+eβ^0+β^1Xeβ^0+β^1X
X可以是定量变量,也可以是定性变量(0或1)。
多元逻辑斯谛回归
log ( p ( X ) 1 − p ( X ) ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p p ( X ) = e β 0 + β 1 X 1 + ⋯ + β p X p 1 + e β 0 + β 1 X 1 + ⋯ + β p X p \log(\frac{p(X)}{1-p(X)})=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p\\p(X)=\frac{e^{\beta_0+\beta_1X_1+\cdots+\beta_pX_p}}{1+e^{\beta_0+\beta_1X_1+\cdots+\beta_pX_p}} log(1−p(X)p(X))=β0+β1X1+β2X2+⋯+βpXpp(X)=1+eβ0+β1X1+⋯+βpXpeβ0+β1X1+⋯+βpXp
响应分类数超过2的逻辑斯谛回归
到目前为止,我们已经用讨论了二分类的逻辑回归。它很容易推广到两个以上的分类。
P
r
(
Y
=
k
∣
X
)
=
e
β
0
k
+
β
1
k
X
1
+
⋯
+
β
p
k
X
p
∑
i
=
1
K
e
β
0
i
+
β
1
i
X
1
+
⋯
+
β
p
i
X
p
Pr(Y=k|X)=\frac{e^{\beta_{0k}+\beta_{1k}X_1+\cdots+\beta_{pk}X_p}}{\sum_{i=1}^Ke^{\beta_{0i}+\beta_{1i}X_1+\cdots+\beta_{pi}X_p}}
Pr(Y=k∣X)=∑i=1Keβ0i+β1iX1+⋯+βpiXpeβ0k+β1kX1+⋯+βpkXp
判别分析
在这类方法中,分别对每种响应分类(给定的Y)建立预测变量X的分布模型,然后运用贝叶斯定理反过来估计 P r ( Y = k ∣ X = x ) Pr(Y=k|X=x) Pr(Y=k∣X=x)。假设这些分布是正态分布,则模型在形式上与逻辑斯谛回归很相似。
为何使用判别分析
- 当类别的区分度高的时候,逻辑斯谛回归模型的参数估计不够稳定,这点在线性判别分析中是不存在的。
- 如果样本量n比较小,而且在每一类响应分类中预测变量X近似服从正态分布,那么线性判别分析模型比逻辑斯谛回归模型更稳定。
- 响应分类多于两类时,线性判别分析应用更普遍。
运用贝叶斯定理进行分类
P r ( Y = k ∣ X = x ) = P r ( X = x ∣ Y = k ) ⋅ P r ( Y = k ) P r ( X = x ) P r ( Y = k ∣ X = x ) = π k f k ( x ) ∑ i = 1 K π i f i ( x ) 记 p k ( x ) = P r ( Y = k ∣ X = x ) 其 中 : f k ( x ) = P r ( X = x ∣ Y = k ) 表 示 第 k 类 观 测 的 X 的 密 度 函 数 , π k = P r ( Y = k ) 是 第 k 类 的 先 验 概 率 。 Pr(Y=k|X=x)=\frac{Pr(X=x|Y=k)·Pr(Y=k)}{Pr(X=x)}\\Pr(Y=k|X=x)=\frac{\pi_kf_k(x)}{\sum_{i=1}^K\pi_if_i(x)}\\记p_k(x)=Pr(Y=k|X=x)\\其中:f_k(x)=Pr(X=x|Y=k)表示第k类观测的X的密度函数,\pi_k=Pr(Y=k)是第k类的先验概率。 Pr(Y=k∣X=x)=Pr(X=x)Pr(X=x∣Y=k)⋅Pr(Y=k)Pr(Y=k∣X=x)=∑i=1Kπifi(x)πkfk(x)记pk(x)=Pr(Y=k∣X=x)其中:fk(x)=Pr(X=x∣Y=k)表示第k类观测的X的密度函数,πk=Pr(Y=k)是第k类的先验概率。
我们根据密度最高的点对一个新的点进行了分类。
p=1的线性判别分析
p=1时,只有一个预测变量。
假设
f
k
(
x
)
f_k(x)
fk(x) 是正态的或高斯的,一维情况下,正态密度函数的形式为:
f
k
(
x
)
=
1
2
π
σ
k
e
−
1
2
(
x
−
μ
k
σ
k
)
2
f_k(x)=\frac{1}{\sqrt{2\pi}\sigma_k}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma_k})^2}
fk(x)=2πσk1e−21(σkx−μk)2
μ
k
、
σ
k
2
\mu_k、\sigma_k^2
μk、σk2 是第k类的平均值和方差。我们假设所有K个类的方差是相同的,记为
σ
2
\sigma^2
σ2,将其插入贝叶斯公式中,可得:
p
k
(
x
)
=
π
k
1
2
π
σ
e
−
1
2
(
x
−
μ
k
σ
)
2
∑
i
=
1
K
π
i
1
2
π
σ
e
−
1
2
(
x
−
μ
i
σ
)
2
p_k(x)=\frac{\pi_k\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma})^2}}{\sum_{i=1}^K\pi_i\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_i}{\sigma})^2}}
pk(x)=∑i=1Kπi2πσ1e−21(σx−μi)2πk2πσ1e−21(σx−μk)2
贝叶斯分类器将观测
X
=
x
X=x
X=x 分到
p
k
(
x
)
p_k(x)
pk(x) 最大的一类。取对数,整理式子,去掉与k无关的项,得贝叶斯分类器将观测值分到下式最大的一组:
δ
k
(
x
)
=
log
π
k
+
x
⋅
μ
k
σ
2
−
μ
k
2
2
σ
2
\delta_k(x)=\log\pi_k+x·\frac{\mu_k}{\sigma^2}-\frac{\mu_k^2}{2\sigma^2}
δk(x)=logπk+x⋅σ2μk−2σ2μk2
假设
K
=
2
,
π
1
=
π
2
=
0.5
K=2,\pi_1=\pi_2=0.5
K=2,π1=π2=0.5:
δ
1
(
x
)
−
δ
2
(
x
)
=
x
⋅
μ
1
−
μ
2
σ
2
−
μ
1
2
−
μ
2
2
2
σ
2
=
μ
1
−
μ
2
σ
2
(
x
−
(
μ
1
+
μ
2
2
)
)
贝
叶
斯
决
策
边
界
对
应
的
点
为
:
x
=
μ
1
+
μ
2
2
\delta_1(x)-\delta_2(x)=x·\frac{\mu_1-\mu_2}{\sigma^2}-\frac{\mu_1^2-\mu_2^2}{2\sigma^2}=\frac{\mu_1-\mu_2}{\sigma^2}(x-(\frac{\mu_1+\mu_2}{2}))\\贝叶斯决策边界对应的点为:x=\frac{\mu_1+\mu_2}{2}
δ1(x)−δ2(x)=x⋅σ2μ1−μ2−2σ2μ12−μ22=σ2μ1−μ2(x−(2μ1+μ2))贝叶斯决策边界对应的点为:x=2μ1+μ2
实际中,要估计参数
μ
1
,
⋯
,
μ
K
,
π
1
,
⋯
,
π
K
,
σ
2
\mu_1,\cdots,\mu_K,\pi_1,\cdots,\pi_K,\sigma^2
μ1,⋯,μK,π1,⋯,πK,σ2。线性判别分析(LDA) 与贝叶斯分类器相似,使用如下参数估计:
π
^
k
=
n
k
n
μ
^
k
=
1
n
k
∑
i
:
y
i
=
k
x
i
σ
^
2
=
1
n
−
K
∑
k
=
1
K
∑
i
:
y
i
=
k
(
x
i
−
μ
^
k
)
2
=
∑
k
=
1
K
n
k
−
1
n
−
K
⋅
σ
^
k
2
其
中
σ
^
k
2
=
1
n
k
−
1
∑
i
:
y
i
=
k
(
x
i
−
μ
^
k
)
2
是
第
k
类
中
估
计
方
差
的
一
般
公
式
。
δ
^
k
(
x
)
=
log
π
^
k
+
x
⋅
μ
^
k
σ
^
2
−
μ
^
k
2
2
σ
^
2
\hat{\pi}_k=\frac{n_k}{n}\\\hat{\mu}_k=\frac{1}{n_k}\sum_{i:y_i=k}x_i\\\hat{\sigma}^2=\frac{1}{n-K}\sum_{k=1}^K\sum_{i:y_i=k}(x_i-\hat{\mu}_k)^2=\sum_{k=1}^K\frac{n_k-1}{n-K}·\hat{\sigma}_k^2\\其中\hat{\sigma}_k^2=\frac{1}{n_k-1}\sum_{i:y_i=k}(x_i-\hat{\mu}_k)^2是第k类中估计方差的一般公式。\\\hat{\delta}_k(x)=\log\hat{\pi}_k+x·\frac{\hat{\mu}_k}{\hat{\sigma}^2}-\frac{\hat{\mu}_k^2}{2\hat{\sigma}^2}
π^k=nnkμ^k=nk1i:yi=k∑xiσ^2=n−K1k=1∑Ki:yi=k∑(xi−μ^k)2=k=1∑Kn−Knk−1⋅σ^k2其中σ^k2=nk−11i:yi=k∑(xi−μ^k)2是第k类中估计方差的一般公式。δ^k(x)=logπ^k+x⋅σ^2μ^k−2σ^2μ^k2
p>1的线性判别分析
p>1时,考虑多元预测变量。
若p维随机变量X服从多元高斯分布,则记为
X
∼
N
(
μ
,
Σ
)
X\sim N(\mu,\Sigma)
X∼N(μ,Σ),其中
E
(
X
)
=
μ
E(X)=\mu
E(X)=μ 是
X
X
X 的均值,
C
o
v
(
X
)
=
Σ
Cov(X)=\Sigma
Cov(X)=Σ 是
X
X
X 的
p
×
p
p\times p
p×p 的协方差矩阵。密度函数可以定义为:
f
(
x
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
f(x)=\frac{1}{{(2\pi)^{p/2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}
f(x)=(2π)p/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
判别函数:
δ
k
(
x
)
=
x
T
Σ
−
1
μ
k
−
1
2
μ
k
T
Σ
−
1
μ
k
+
log
π
k
\delta_k(x)=x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+\log\pi_k
δk(x)=xTΣ−1μk−21μkTΣ−1μk+logπk
LDA分类器假设第k类观测服从一个多元高斯分布
N
(
μ
k
,
Σ
)
N(\mu_k,\Sigma)
N(μk,Σ),其中
μ
k
\mu_k
μk 是一个均值向量,
Σ
\Sigma
Σ 是所有K类共同的协方差矩阵。
同样,需要估计未知参数 μ 1 , ⋯ , μ K , π 1 , ⋯ , π K , Σ \mu_1,\cdots,\mu_K,\pi_1,\cdots,\pi_K,\Sigma μ1,⋯,μK,π1,⋯,πK,Σ。 δ k ( x ) \delta_k(x) δk(x) 是关于 x x x 的线性函数。
从 δ k ( x ) \delta_k(x) δk(x) 看概率
一旦估计出
δ
^
k
(
x
)
\hat{\delta}_k(x)
δ^k(x),可将其变为类概率的估计:
P
r
^
(
Y
=
k
∣
X
=
x
)
=
e
δ
k
^
(
x
)
∑
i
=
1
K
e
δ
i
^
(
x
)
\hat{Pr}(Y=k|X=x)=\frac{e^{\hat{\delta_k}(x)}}{\sum_{i=1}^Ke^{\hat{\delta_i}(x)}}
Pr^(Y=k∣X=x)=∑i=1Keδi^(x)eδk^(x)
所以分类到最大的
δ
^
k
(
x
)
\hat{\delta}_k(x)
δ^k(x) 的类等于
P
r
^
(
Y
=
k
∣
X
=
x
)
\hat{Pr}(Y=k|X=x)
Pr^(Y=k∣X=x) 最大的类。
当k=2,如果 P r ^ ( Y = 2 ∣ X = x ) ≥ 0.5 \hat{Pr}(Y=2|X=x)\geq0.5 Pr^(Y=2∣X=x)≥0.5,则分到第2类,否则分到第1类。
误差种类
- 假阳性率:阴性值被错误的分到阳性组的比例。
- 假阴性率:阳性值被错误的分到阴性组的比例。
第一类错误率=假阳性率=误诊率
第二类错误率=假阴性率=漏诊率
1-假阳性率=真阴性率(特异性)
1-假阴性率=真阳性率(敏感性)
病人 | 正常人 | |
---|---|---|
阳 | TP(真阳) | FP(假阳) |
阴 | FN(假阴) | TN(真阴) |
FPR(假阳性率)=FP/(FP+TN)
FNR(假阴性率)=FN/(TP+FN)
1-FPR=TN/(FP+TN)=真阴性率
1-FNR=TP/(TP+FN)=真阳性率
我们可以通过将阈值从0.5更改成其他[0,1]上的值来更改上述两个错误率:
P
r
^
(
Y
=
Y
e
s
∣
X
1
,
X
2
)
≥
t
h
r
e
s
h
o
l
d
\hat{Pr}(Y=Yes|X_1,X_2)\geq threshold
Pr^(Y=Yes∣X1,X2)≥threshold
黑实线是总的错误率,蓝线是假阴性率,橙线是假阳性率。为了降低假阴性率,我们可能希望将阈值降低到0.1或更少。
ROC曲线同时展示出所有阈值可能出现的两种错误。分类器的性能表现通过ROC曲线下面的面积(AUC)表示,一个理想的ROC曲线会紧贴左上角,所以AUC越大,分类器越好。
二次判别分析
LDA假设每一类观测服从一个多元高斯分布,其中协方差矩阵对所有的K类是相同的。二次判别函数(QDA) 提供了新方法,假设每一类观测服从一个多元高斯分布,并假设每一类观测都有自己的协方差矩阵,假设来自第k类的观测形如 X ∼ N ( μ k , Σ k ) X\sim N(\mu_k,\Sigma_k) X∼N(μk,Σk), Σ k \Sigma_k Σk 是第k类的协方差矩阵。
对于每一类: f k ( x ) = ∏ j = 1 p f j k ( x j ) f_k(x)=\prod_{j=1}^pf_{jk}(x_j) fk(x)=∏j=1pfjk(xj)(条件独立模型),我们得到朴素贝叶斯, Σ k \Sigma_k Σk 是对角矩阵。
对于上述假设,贝叶斯分类器把观测
X
=
x
X=x
X=x 分入
δ
k
(
x
)
=
−
1
2
(
x
−
μ
k
)
T
Σ
k
−
1
(
x
−
μ
k
)
+
log
π
k
=
−
1
2
x
T
Σ
k
−
1
x
+
x
T
Σ
k
−
1
μ
k
−
1
2
μ
k
T
Σ
k
−
1
μ
k
+
log
π
k
\delta_k(x)=-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k)+\log\pi_k\\=-\frac{1}{2}x^T\Sigma_k^{-1}x+x^T\Sigma_k^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma_k^{-1}\mu_k+\log\pi_k
δk(x)=−21(x−μk)TΣk−1(x−μk)+logπk=−21xTΣk−1x+xTΣk−1μk−21μkTΣk−1μk+logπk
最大的一组,同样需要估计
Σ
k
,
μ
k
,
π
k
\Sigma_k,\mu_k,\pi_k
Σk,μk,πk 并代入上式。
如何选择LDA和QDA是一个偏差-方差均衡的问题。当有p个预测变量时,预测协方差矩阵要p(p+1)/2个参数,QDA要对每一类分别估计协方差矩阵,即需要Kp(p+1)/2个参数。然而通过假设K类协方差矩阵相同,LDA模型对x来说是线性的,意味着有Kp个线性系数需要估计。所以,LDA没有QDA分类器光滑,拥有更低的方差,有改善预测效果的潜力,但这里要权衡考虑。
一般而言,如果训练观测数据量相对较小,LDA是一个比QDA更好的决策,降低模型的方差很有必要;相反地,如果训练集非常大,则更倾向于使用QDA,此时LDA假设K类有相同的协方差矩阵站不住脚。
朴素贝叶斯
高斯朴素贝叶斯假设每一个
Σ
k
\Sigma_k
Σk 都是对角线的。
δ
k
(
x
)
∝
log
[
π
k
∏
j
=
1
p
f
k
j
(
x
j
)
]
=
−
1
2
∑
j
=
1
p
(
x
j
−
μ
k
j
)
2
σ
k
j
2
+
log
π
k
\delta_k(x)\propto\log[\pi_k\prod_{j=1}^pf_{kj}(x_j)]=-\frac{1}{2}\sum_{j=1}^p\frac{(x_j-\mu_{kj})^2}{\sigma_{kj}^2}+\log\pi_k
δk(x)∝log[πkj=1∏pfkj(xj)]=−21j=1∑pσkj2(xj−μkj)2+logπk
可用于混合特征向量(定性与定量)。如果
X
j
X_j
Xj 是定性的,用离散类别上的概率质量函数代替
f
k
j
(
x
j
)
f_{kj}(x_j)
fkj(xj)。
分类方法比较
考虑类数为2,LDA可以写成:
p
k
(
x
)
=
π
k
f
k
(
x
)
∑
i
=
1
K
π
i
f
i
(
x
)
f
k
(
x
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
k
)
T
Σ
−
1
(
x
−
μ
k
)
log
(
p
1
(
x
)
1
−
p
1
(
x
)
)
=
log
(
p
1
(
x
)
p
2
(
x
)
)
=
log
(
π
1
f
1
(
x
)
π
2
f
2
(
x
)
)
=
log
(
π
1
π
2
)
+
log
(
f
1
(
x
)
f
2
(
x
)
)
=
log
(
π
1
π
2
)
+
1
2
[
(
x
−
μ
2
)
T
Σ
−
1
(
x
−
μ
2
)
−
(
x
−
μ
1
)
T
Σ
−
1
(
x
−
μ
1
)
]
=
log
(
π
1
π
2
)
+
1
2
x
T
Σ
−
1
x
−
x
T
Σ
−
1
μ
2
+
1
2
μ
2
T
Σ
−
1
μ
2
−
[
1
2
x
T
Σ
−
1
x
−
x
T
Σ
−
1
μ
1
+
1
2
μ
1
T
Σ
−
1
μ
1
]
=
log
(
π
1
π
2
)
+
(
μ
1
−
μ
2
)
x
T
Σ
−
1
+
1
2
μ
2
T
Σ
−
1
μ
2
−
1
2
μ
1
T
Σ
−
1
μ
1
=
c
0
+
(
μ
1
−
μ
2
)
x
T
Σ
−
1
=
c
0
+
c
1
x
1
+
⋯
+
c
p
x
p
p_k(x)=\frac{\pi_kf_k(x)}{\sum_{i=1}^K\pi_if_i(x)}\\f_k(x)=\frac{1}{{(2\pi)^{p/2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)}\\\log(\frac{p_1(x)}{1-p_1(x)})=\log(\frac{p_1(x)}{p_2(x)})=\log(\frac{\pi_1f_1(x)}{\pi_2f_2(x)})=\log(\frac{\pi_1}{\pi_2})+\log(\frac{f_1(x)}{f_2(x)})\\=\log(\frac{\pi_1}{\pi_2})+\frac{1}{2}[(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)]\\=\log(\frac{\pi_1}{\pi_2})+\frac{1}{2}x^T\Sigma^{-1}x-x^T\Sigma^{-1}\mu_2+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2-[\frac{1}{2}x^T\Sigma^{-1}x-x^T\Sigma^{-1}\mu_1+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1]\\=\log(\frac{\pi_1}{\pi_2})+(\mu_1-\mu_2)x^T\Sigma^{-1}+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2-\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1\\=c_0+(\mu_1-\mu_2)x^T\Sigma^{-1}=c_0+c_1x_1+\cdots+c_px_p
pk(x)=∑i=1Kπifi(x)πkfk(x)fk(x)=(2π)p/2∣Σ∣1/21e−21(x−μk)TΣ−1(x−μk)log(1−p1(x)p1(x))=log(p2(x)p1(x))=log(π2f2(x)π1f1(x))=log(π2π1)+log(f2(x)f1(x))=log(π2π1)+21[(x−μ2)TΣ−1(x−μ2)−(x−μ1)TΣ−1(x−μ1)]=log(π2π1)+21xTΣ−1x−xTΣ−1μ2+21μ2TΣ−1μ2−[21xTΣ−1x−xTΣ−1μ1+21μ1TΣ−1μ1]=log(π2π1)+(μ1−μ2)xTΣ−1+21μ2TΣ−1μ2−21μ1TΣ−1μ1=c0+(μ1−μ2)xTΣ−1=c0+c1x1+⋯+cpxp
所以LDA与逻辑斯谛回归有相同的形式,但是参数的估计方式不同。逻辑斯谛回归的参数是由极大似然估计出来的,基于条件概率 P r ( Y ∣ X ) Pr(Y|X) Pr(Y∣X);而LDA的参数是通过估计的正态分布均值和方差计算出来的,基于 P r ( X , Y ) Pr(X,Y) Pr(X,Y)。尽管有这些不同,但在实际实践中,结果往往非常相似。
逻辑斯谛回归也可以通过明确地包含二次项,来适应模型中的二次边界。
LDA假设观测服从每一类协方差矩阵都相同的高斯分布,当该高斯假设合理时,LDA能比逻辑斯谛回归提供更好的结果。在n很小,或类分离很好时,LDA是有用的,在K>2时也有用。
如果高斯分布的假设不满足,逻辑斯谛回归比LDA效果更好。
朴素贝叶斯在p很大时是有用的。
KNN是一个彻底的非参数方法,对决策边界的形状没有做出任何假设。因此,当决策边界高度非线性时,用该方法会优于LDA和逻辑斯谛回归。
QDA是非参数KNN方法和线性LDA、逻辑斯谛回归方法之间的一个折中的方法。虽然不如KNN光滑度高,但QDA在固定训练数据量上一般比KNN有更好的效果,原因是QDA对决策边界的形状做了一些假设。