Statistic Learning 2

最新推荐文章于 2020-05-17 23:51:38 发布

GodWriter

最新推荐文章于 2020-05-17 23:51:38 发布

阅读量193

点赞数

分类专栏：统计学习文章标签：统计学习 Logistic回归线性判别分析LDA

本文链接：https://blog.csdn.net/godwriter/article/details/105450346

版权

统计学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Logistic Regression

三种常用的分类方法

Logistic Regression
Linear Discriminant Analysis
K-NN Negihbor

为什么不用Linear Regression建模分类模型？

若使用Linear Regression来建模

$\beta_0 + \beta_1x$
上述模型存在两个问题
- 概率可能为负
- 概率可能超过1

Logistic Regression建模

$\frac{e^{\beta_0 + \beta_1x}}{1 + e^{\beta_0 + \beta_1x}}$

上述的模型是一根曲线，且范围在 $(0, 1)$
此外，可以得到

$\frac{P(x)}{1-P(x)} = e^{\beta_0 + \beta_1x}$
由此可以推出

$log(\frac{P(x)}{1-P(x)}) = \beta_0 + \beta_1x$
在上面的式子中， $l o g i t$ 关于 $x$ 是线性的；若是 $x$ 增加 $1 - u n i t$ ，那么 $l o g i t$ 平均增加 $\beta_1x$ 。但是 $P (x)$ 和 $x$ 不是线性关系的，若是 $x$ 增加 $1 - u n i t$ ， $P (x)$ 改变的值根据当前值决定。若是忽略 $x$ 的值，只要 $\beta_1$ 为正数，那么增加 $x$ 值会增加 $P (x)$ 的概率。

Estimating the Regression Coefficients

可用最大似然的方法估计 $\beta_0,\beta_1$ 的值
如何验证相关系数的有效性

$\frac{\beta_1}{SE(\hat{\beta_1})}$

$z - s t a t i s t i c$ 的值越大，说明 $SE(\hat{\beta_1})$ 的值越小；这将成为拒绝 $H_0$ 的主要原因。

Confounding现象

在估计拖欠率的时候，只有 $s t u d e n t$ 作为 $p r e d i c t o r$ 。此时，若身份是学生，那么拖欠率会降低
但，增加了 $b a l a n c e, i n c o m e$ 这两个 $p r e d i c t o r$ 后，此时若身份是一个学生，那么拖欠率会变高。为什么呢？这是因为 $b a l a n c e$ 和 $s t u d e n t$ 之间存在相关性。 $b a l a n c e$ 越大，会导致身份为 $s t u d e n t$ 的拖欠率会升高。就像 $L i n e a r R e g r e s s i o n$ 中，一旦 $p r e d i c t o r$ 间存在了相关性， $Y$ 的增长不仅会和一个 $p r e d i c t o r$ 增长一个 $1 - u n i t$ 相关。

2. Linear Discriminant Analysis

$L o g i s t i c R e g r e s s i o n$ 建立了 $R e s p o n s e Y$ 的条件分布；而在给定 $p r e d i c t o r$ 的时候， $L D A$ 根据不同的类别，对 $p r e d i c t o r$ 的分布进行建模。

为什么有了Logistic Regression，还需要LDA?

当各类之间的边缘明确时， $L D A$ 比 $L o g i s t i c R e g r e s s i o n$ 更加的稳定
当 $n$ 较小时， $x$ 基本成正态分布，此时 $L D A$ 更为稳定
当分类类别在 $2$ 类之上时， $L D A$ 更加流行。

分类中的贝叶斯理论

定义符号
- $\pi_k$ ：随机选中一个样本属于第 $k$ 类别的先验概率
- $f_k(x) \equiv Pr(X=x|Y=k)$ ：类别 $k$ 下样本分布的概率密度函数
贝叶斯理论

$p_k(x) = Pr(Y=k|X=x) = \frac{\pi_kf_k(x)}{\sum_{l=1}^k\pi_lf_l(x)}$
- 可用缩写 $p_k(x)$ 代表当 $X = x$ 时， $Y = k$ 的概率
- 根据公式，若要估计 $p_k(x)$ ，可以先估计 $\pi_k,f_k(x)$ 再带入贝叶斯公式
- $\pi_k$ 比较容易估计，可以通过计算训练集中各类别数据的占比；但 $f_k(x)$ 的计算比较有挑战性。
$p_k(x)$ 被称之为 $X = x$ 属于第 $k$ 个类别的后验概率；如果能找一种方法估计 $p_k(x)$ ，就可以得到一个近似贝叶斯分类器的分类器。

Linear Discriminant Analysis for p=1

假设此时只有一个 $p r e d i c t o r$ ， $p = 1$ ；我们需要获得 $f_k(x)$ 的估计，来计算 $p_k(x)$ 。那么对于一个样本而言， $p_k(x)$ 最大的那个 $k$ 就是它所属的类别。
为了估计 $f_k(x)$ ，需要做一些假设
- 假设 $f_k(x)$ 服从正态分布，一维正太分布的概率密度函数如下：
  
  $f_k(x) = \frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2}$
  
  其中， $\mu_k,\sigma_k$ 是第 $k$ 个类别的均值和方差
- 此外，假设所有 $k$ 个类别共享相同的方差，统称为 $\sigma^2$
将 $f_k(x)$ 代入 $p_k(x)$ 中，得到如下式子：

$p_k(x) = \frac{\pi_k\frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2}}{\sum_{l=1}^k\pi_l\frac{1}{\sqrt2\sigma_l}e^{-\frac{1}{2\sigma_l^2}(x-\mu_l)^2}} ~~~~~~~~ 公式(1)$

其中， $\pi_k$ 声明了一个样本属于第 $k$ 个类别的先验概率
若是对 $公式 (1)$ 取 $l o g ()$ ，可以得到以下式子：

$\delta_k(x) = x\frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k) ~~~~~~~~ 公式(2)$
对于公式 $2$ ，当 $\pi_1=\pi_2$ 时，计算如下式子：

$\delta_1(x) - \delta_2(x) > 0 \\ \Rightarrow \frac{x}{\sigma^2}(\mu_1-\mu_2) - \frac{1}{2\sigma^2}(\mu_1^2 - \mu_2^2) > 0 \\ \Rightarrow 2x(\mu_1 - \mu_2) > \mu_1^2 - \mu_2^2$

此时可以得到得到一个决策边界，如下：

$\frac{\mu_1^2-\mu_2^2}{2(\mu_1-\mu_2)} = \frac{\mu_1+\mu_2}{2} ~~~~~~~~ 公式(3)$
在上面的例子中，我们假设 $x$ 来自正态分布，所以我们知道 $f_k(x)$ ，但需要估计 $\mu,\sigma$ ；此外，我们还假设了 $\pi_1=\pi_2$ 。那在实践中，我们依然假设每个类别中的 $x$ 来自正态分布，但需要估计 $\mu_1,\mu_2,...,\mu_k$ ，以及 $\pi_1,\pi_2,...,\pi_k$ 和 $\sigma^2$ 。
$L D A$ 通过估计 $\pi_k,\mu_k,\sigma^2$ 来近似贝叶斯分类器。在实践中，当 $p = 1$ 时，可以估计出

$\begin{cases} \hat{\mu_k} = \frac{1}{n_k}\sum_{i:y_i=k}x_i \\ \hat{\sigma}^2 = \frac{1}{n-k}\sum_{k=1}^k\sum_{i:y_i=k}(x_i - \hat{\mu}_k)^2 \end{cases}$

其中， $n$ 为训练样本总量； $n_k$ 为类别 $k$ 的样本总量；可以看出
- $\hat{\mu}$ 仅仅是第 $k$ 个类别中所有样本的均值
- $\hat{\sigma}^2$ 是每 $k$ 个类别样本方差的加权平均
如何计算 $\pi_k$ ?
- 有的时候该项已知，直接用
- 当缺少 $\pi_k$ 时， $L D A$ 使用训练集中某类样本占总样本量的比例来估计 $\pi_k$
  
  $\hat{\pi}_k = \frac{n_k}{n}$
- 最终可以判别 $X = x$ 属于不同类别的概率，式子如下
  
  $\hat{\delta}_k(x) = x\frac{\hat{\mu}_k}{\hat{\sigma}^2} - \frac{\hat{\mu}_k^2}{2\hat{\sigma}^2} + log(\hat{\pi}_k) ~~~~~~~~ 公式(4)$
- LDA中的"Linear"就源于判别方法 $\hat{\delta}_k$ 是x的线性方法。

最后，重申以下：当 $p = 1$ 时， $L D A$ 假设每个类别都来自正态分布，均值不同，但共享同一个方差；估计 $\pi,\mu,\sigma$ 后，带入到贝叶斯分类器中即可。

本文为作者原创，转载需注明出处！

GodWriter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Statistic Learning 2

Logistic Regression三种常用的分类方法Logistic RegressionLinear Discriminant AnalysisK-NN Negihbor为什么不用Linear Regression建模分类模型？若使用Linear Regression来建模P(x)=β0+β1xP(x) = \beta_0 + \beta_1xP(x)=β0+...
复制链接

扫一扫