统计学习（三）：分类

最新推荐文章于 2021-08-26 04:49:14 发布

梅九九

最新推荐文章于 2021-08-26 04:49:14 发布

阅读量343

点赞数 1

分类专栏：统计学习

本文链接：https://blog.csdn.net/qq_52737544/article/details/115554498

版权

统计学习专栏收录该内容

10 篇文章 26 订阅

订阅专栏

文章目录

分类

分类

此时响应变量是定性的（qualitative）

为什么线性回归不可用

假设对响应变量编码：
$Y=\begin{cases}0\ \ \ \ ,\ \ \ \ if \ No\\1\ \ \ \ ,\ \ \ \ if\ Yes\end{cases}$
我们可以简单地执行Y对X的线性回归并将 $\tilde{Y}>0.5$ 归类为Yes吗？

在这种二元结果的情况下，线性回归作为一个分类器做得很好，同时有 $E (Y ∣ X = x) = P r (Y = 1 ∣ X = x)$ 。但是，线性回归可能产生大于1或小于0的概率。逻辑回归更合适。

通常不能将一个定性的响应变量自然地转化为两水平以上的定量变量来建立线性回归模型。当响应变量没有一个自然的程度顺序，线性回归就不适合。

逻辑斯谛回归

逻辑斯谛模型

$p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}$

不管怎么取值， $p (X)$ 都在。同时，有：
$\log(\frac{p(X)}{1-p(X)})=\beta_0+\beta_1X$
上式称为对数发生比（log odds）或分对数（logit）。

估计回归系数（ML）

用极大似然估计来估计系数：
$l(\beta_0,\beta_1)=\prod_{i:y_i=1}p(x_i)\prod_{i':y_i=0}(1-p(x_{i'}))$
所估计的系数 $\hat{\beta_0}、\hat{\beta_1}$ ，应使似然函数值最大。

预测

$\hat{p}(X)=\frac{e^{\hat{\beta}_0+\hat{\beta}_1X}}{1+e^{\hat{\beta}_0+\hat{\beta}_1X}}$

X可以是定量变量，也可以是定性变量（0或1）。

多元逻辑斯谛回归

$\log(\frac{p(X)}{1-p(X)})=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p\\p(X)=\frac{e^{\beta_0+\beta_1X_1+\cdots+\beta_pX_p}}{1+e^{\beta_0+\beta_1X_1+\cdots+\beta_pX_p}}$

响应分类数超过2的逻辑斯谛回归

到目前为止，我们已经用讨论了二分类的逻辑回归。它很容易推广到两个以上的分类。
$Pr(Y=k|X)=\frac{e^{\beta_{0k}+\beta_{1k}X_1+\cdots+\beta_{pk}X_p}}{\sum_{i=1}^Ke^{\beta_{0i}+\beta_{1i}X_1+\cdots+\beta_{pi}X_p}}$

判别分析

在这类方法中，分别对每种响应分类（给定的Y）建立预测变量X的分布模型，然后运用贝叶斯定理反过来估计 $P r (Y = k ∣ X = x)$ 。假设这些分布是正态分布，则模型在形式上与逻辑斯谛回归很相似。

为何使用判别分析

当类别的区分度高的时候，逻辑斯谛回归模型的参数估计不够稳定，这点在线性判别分析中是不存在的。
如果样本量n比较小，而且在每一类响应分类中预测变量X近似服从正态分布，那么线性判别分析模型比逻辑斯谛回归模型更稳定。
响应分类多于两类时，线性判别分析应用更普遍。

运用贝叶斯定理进行分类

$Pr(Y=k|X=x)=\frac{Pr(X=x|Y=k)·Pr(Y=k)}{Pr(X=x)}\\Pr(Y=k|X=x)=\frac{\pi_kf_k(x)}{\sum_{i=1}^K\pi_if_i(x)}\\记p_k(x)=Pr(Y=k|X=x)\\其中：f_k(x)=Pr(X=x|Y=k)表示第k类观测的X的密度函数，\pi_k=Pr(Y=k)是第k类的先验概率。$

我们根据密度最高的点对一个新的点进行了分类。

p=1的线性判别分析

p=1时，只有一个预测变量。

假设 $f_k(x)$ 是正态的或高斯的，一维情况下，正态密度函数的形式为：
$f_k(x)=\frac{1}{\sqrt{2\pi}\sigma_k}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma_k})^2}$
$\mu_k、\sigma_k^2$ 是第k类的平均值和方差。我们假设所有K个类的方差是相同的，记为 $\sigma^2$ ，将其插入贝叶斯公式中，可得：
$p_k(x)=\frac{\pi_k\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma})^2}}{\sum_{i=1}^K\pi_i\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_i}{\sigma})^2}}$
贝叶斯分类器将观测 $X = x$ 分到 $p_k(x)$ 最大的一类。取对数，整理式子，去掉与k无关的项，得贝叶斯分类器将观测值分到下式最大的一组：
$\delta_k(x)=\log\pi_k+x·\frac{\mu_k}{\sigma^2}-\frac{\mu_k^2}{2\sigma^2}$
假设 $K=2,\pi_1=\pi_2=0.5$ ：
$\delta_1(x)-\delta_2(x)=x·\frac{\mu_1-\mu_2}{\sigma^2}-\frac{\mu_1^2-\mu_2^2}{2\sigma^2}=\frac{\mu_1-\mu_2}{\sigma^2}(x-(\frac{\mu_1+\mu_2}{2}))\\贝叶斯决策边界对应的点为：x=\frac{\mu_1+\mu_2}{2}$
实际中，要估计参数 $\mu_1,\cdots,\mu_K,\pi_1,\cdots,\pi_K,\sigma^2$ 。线性判别分析（LDA） 与贝叶斯分类器相似，使用如下参数估计：
$\hat{\pi}_k=\frac{n_k}{n}\\\hat{\mu}_k=\frac{1}{n_k}\sum_{i:y_i=k}x_i\\\hat{\sigma}^2=\frac{1}{n-K}\sum_{k=1}^K\sum_{i:y_i=k}(x_i-\hat{\mu}_k)^2=\sum_{k=1}^K\frac{n_k-1}{n-K}·\hat{\sigma}_k^2\\其中\hat{\sigma}_k^2=\frac{1}{n_k-1}\sum_{i:y_i=k}(x_i-\hat{\mu}_k)^2是第k类中估计方差的一般公式。\\\hat{\delta}_k(x)=\log\hat{\pi}_k+x·\frac{\hat{\mu}_k}{\hat{\sigma}^2}-\frac{\hat{\mu}_k^2}{2\hat{\sigma}^2}$

p>1的线性判别分析

p>1时，考虑多元预测变量。

若p维随机变量X服从多元高斯分布，则记为 $X\sim N(\mu,\Sigma)$ ，其中 $E(X)=\mu$ 是 $X$ 的均值， $Cov(X)=\Sigma$ 是 $X$ 的 $p\times p$ 的协方差矩阵。密度函数可以定义为：
$f(x)=\frac{1}{{(2\pi)^{p/2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$
判别函数：
$\delta_k(x)=x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+\log\pi_k$
LDA分类器假设第k类观测服从一个多元高斯分布 $N(\mu_k,\Sigma)$ ，其中 $\mu_k$ 是一个均值向量， $\Sigma$ 是所有K类共同的协方差矩阵。

同样，需要估计未知参数 $\mu_1,\cdots,\mu_K,\pi_1,\cdots,\pi_K,\Sigma$ 。 $\delta_k(x)$ 是关于 $x$ 的线性函数。

从 $\delta_k(x)$ 看概率

一旦估计出 $\hat{\delta}_k(x)$ ，可将其变为类概率的估计：
$\hat{Pr}(Y=k|X=x)=\frac{e^{\hat{\delta_k}(x)}}{\sum_{i=1}^Ke^{\hat{\delta_i}(x)}}$
所以分类到最大的 $\hat{\delta}_k(x)$ 的类等于 $\hat{Pr}(Y=k|X=x)$ 最大的类。

当k=2，如果 $\hat{Pr}(Y=2|X=x)\geq0.5$ ，则分到第2类，否则分到第1类。

误差种类

假阳性率：阴性值被错误的分到阳性组的比例。
假阴性率：阳性值被错误的分到阴性组的比例。

第一类错误率=假阳性率=误诊率
第二类错误率=假阴性率=漏诊率

1-假阳性率=真阴性率（特异性）
1-假阴性率=真阳性率（敏感性）

	病人	正常人
阳	TP（真阳）	FP（假阳）
阴	FN（假阴）	TN（真阴）

FPR（假阳性率）=FP/(FP+TN)
FNR（假阴性率）=FN/(TP+FN）

1-FPR=TN/(FP+TN)=真阴性率
1-FNR=TP/(TP+FN)=真阳性率

我们可以通过将阈值从0.5更改成其他[0,1]上的值来更改上述两个错误率：
$\hat{Pr}(Y=Yes|X_1,X_2)\geq threshold$
黑实线是总的错误率，蓝线是假阴性率，橙线是假阳性率。为了降低假阴性率，我们可能希望将阈值降低到0.1或更少。

ROC曲线同时展示出所有阈值可能出现的两种错误。分类器的性能表现通过ROC曲线下面的面积（AUC）表示，一个理想的ROC曲线会紧贴左上角，所以AUC越大，分类器越好。

二次判别分析

LDA假设每一类观测服从一个多元高斯分布，其中协方差矩阵对所有的K类是相同的。二次判别函数（QDA） 提供了新方法，假设每一类观测服从一个多元高斯分布，并假设每一类观测都有自己的协方差矩阵，假设来自第k类的观测形如 $X\sim N(\mu_k,\Sigma_k)$ ， $\Sigma_k$ 是第k类的协方差矩阵。

对于每一类： $f_k(x)=\prod_{j=1}^pf_{jk}(x_j)$ （条件独立模型），我们得到朴素贝叶斯， $\Sigma_k$ 是对角矩阵。

对于上述假设，贝叶斯分类器把观测 $X = x$ 分入
$\delta_k(x)=-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k)+\log\pi_k\\=-\frac{1}{2}x^T\Sigma_k^{-1}x+x^T\Sigma_k^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma_k^{-1}\mu_k+\log\pi_k$
最大的一组，同样需要估计 $\Sigma_k,\mu_k,\pi_k$ 并代入上式。

如何选择LDA和QDA是一个偏差-方差均衡的问题。当有p个预测变量时，预测协方差矩阵要p(p+1)/2个参数，QDA要对每一类分别估计协方差矩阵，即需要Kp(p+1)/2个参数。然而通过假设K类协方差矩阵相同，LDA模型对x来说是线性的，意味着有Kp个线性系数需要估计。所以，LDA没有QDA分类器光滑，拥有更低的方差，有改善预测效果的潜力，但这里要权衡考虑。

一般而言，如果训练观测数据量相对较小，LDA是一个比QDA更好的决策，降低模型的方差很有必要；相反地，如果训练集非常大，则更倾向于使用QDA，此时LDA假设K类有相同的协方差矩阵站不住脚。

朴素贝叶斯

高斯朴素贝叶斯假设每一个 $\Sigma_k$ 都是对角线的。
$\delta_k(x)\propto\log[\pi_k\prod_{j=1}^pf_{kj}(x_j)]=-\frac{1}{2}\sum_{j=1}^p\frac{(x_j-\mu_{kj})^2}{\sigma_{kj}^2}+\log\pi_k$
可用于混合特征向量（定性与定量）。如果 $X_j$ 是定性的，用离散类别上的概率质量函数代替 $f_{kj}(x_j)$ 。

分类方法比较

考虑类数为2，LDA可以写成：
$p_k(x)=\frac{\pi_kf_k(x)}{\sum_{i=1}^K\pi_if_i(x)}\\f_k(x)=\frac{1}{{(2\pi)^{p/2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)}\\\log(\frac{p_1(x)}{1-p_1(x)})=\log(\frac{p_1(x)}{p_2(x)})=\log(\frac{\pi_1f_1(x)}{\pi_2f_2(x)})=\log(\frac{\pi_1}{\pi_2})+\log(\frac{f_1(x)}{f_2(x)})\\=\log(\frac{\pi_1}{\pi_2})+\frac{1}{2}[(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)]\\=\log(\frac{\pi_1}{\pi_2})+\frac{1}{2}x^T\Sigma^{-1}x-x^T\Sigma^{-1}\mu_2+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2-[\frac{1}{2}x^T\Sigma^{-1}x-x^T\Sigma^{-1}\mu_1+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1]\\=\log(\frac{\pi_1}{\pi_2})+(\mu_1-\mu_2)x^T\Sigma^{-1}+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2-\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1\\=c_0+(\mu_1-\mu_2)x^T\Sigma^{-1}=c_0+c_1x_1+\cdots+c_px_p$