ch3 统计分类问题详解-CSDN博客

本文链接：https://blog.csdn.net/TwjnbcT/article/details/130674185

分类问题由来已久，和回归问题一样经典，但它本身和回归相比又有什么特别之处呢？显然，对于一般的分类而言，其分类的可能性是有限的，同时，对于结果的输出我们也不再希望它是一个拟合函数或者预测值，而是它对于每种分类的可能性。
假设我们对于Linear Regression有一点点基础，知道本质是求解
$\argmin_{\beta}|y-\hat{y}|_2^2= \argmin_{\beta}|y-x\beta|_2^2$
并且他的解有一种非常优美的表达形式：
$\beta = (X^TX)^{-1}X^Ty$

那为什么这个东西解决不了分类问题？答案是显而易见的，他能够输出的值只能是 $\beta x$ 这个数值，不能对应到生活中的类别或者概率，那该怎么映射过去呢？我们从一个binary的case看起：

1. Logistic Regression

1.1 问题由来和定义

直接对y=0/1的数据做linear regression的结果如下：
在这里插入图片描述

所以考虑 $P(y=1|x)=x\beta$ 是不行的，没有办法保证结果落在合理的概率区间，为了让结果能落入概率的取值范围，引入sigmoid函数考虑 $P(y=1|x)=\frac{1}{1+\exp(x\beta)}$
进一步不难得到
$\log\frac{P(y=1|x)}{P(y=0|x)}=x\beta$
ps.背后的概率模型为伯努利模型，当我们选定loss function时，我们必然做出了这种类似的假设。

1.2 $\beta$ 求解方法(MLE)

当然是最有名的最大似然估计法，求解 $\beta$ 就有了下面的表达式：
$\beta=\argmax_{\beta}\log p(y|x_i,\beta)=\argmax_{\beta}\sum_{i=1}^n[y_ix_i\beta-\log(1+\exp(x_i\beta))]$
求解最小值，这里要对 $\beta$ 求导、
$\frac{\partial f}{\partial \beta} = \sum_{I=1}^n[ y_ix_i-\frac{x_i\exp(x_i\beta)}{1+\exp(x_i\beta)}]= \sum_{I=1}^n[x_i(y_i-p_i)]=X^T(Y-P)$
其中 $p_i=\frac{1}{1+\exp(-x_i\beta)}$ 不难发现，这个东西求和等于0的解并不好求，所以我们引入了Newton’s Methods来迭代求解，对于一阶导数，考虑其在0处的Taylor展开：
$0\approx g(x_1)\approx g(x_0)+g'(x_0)(x_1-x_0)$
$x_1=-g'(x_0)^{-1}g(x_0)+x_0$
显然这里就用到了二阶导，我们称二阶导得到的结果为Hessian Matrix:
$H=-\sum_{i=1}^np_i[1-p_i]x_ix_i^T=-x^TWx$
其中 $W=diag(p_1[1-p_1],\cdots,p_n[1-p_n])$ ,最终Newton 迭代的步骤为：
$\beta^{new}=\beta^{old}-H^{-1}\nabla\ell=\beta^{old}+(x^TWx)^{-1}x^T(y-p)$
实际使用的过程中，求逆过程非常艰难，还需要搭配其他算法服用效果最佳。同时对于能完美分类的case其迭代效果并不好，因为参数往往要达到无穷才可以实现，导致其最后是不收敛的。
[拓展天地] 做一个牛顿下山的专项练习,求解在1附近的极值点：
$f(x)=x^3-2x+2$
$f'(x)=3x^2-2,f''(x)=6x,x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)}$
$x_1=x_0-\frac{3x_0^2-2}{6x_0}......$

1.3 Multi-Class Logistic Regression

对于多类问题，我们往往需要对其两两分类，选择其中的一类作为参考，例如k=3，选择第三类作为reference：
$\log\frac{P(y=k_3|x)}{P(y=k|x)}=x\beta_k$
其中 $\beta_k$ 代表区分第k类和第3类的曲线，那如何区分第一类和第二类呢？两者再相互做除法即可。这样我们就把多分类问题划分为了两两一组的二分类问题！

2 分类问题中的生成模型（LDA）

对于上述的问题，我们只能对于给定的 $x_i$ ，预测其对应的 $y_i$ 的概率，反过来，我们要是想通过模型进行取样的话(求解 $p_k(x)=p(Y=k|X=x$ ),进而进行分类).首先需要进行一些前提的假设和前置知识的补充

假设X在Y=k里面是正态分布的，并且不同类别中的方差是相同的，即 $X|Y=k\sim N(\mu_k,\Sigma)$ :
$f_k(x)=\frac{1}{(2\pi)^{p/2}\Sigma^{1/2}}\exp(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k))$
Bayes Theorem:
$P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\sum_{j=1}^KP(B|A_j)P(A_j)}$
把上面的二者结合一下不难得到 $p_k(x)$
$p_k(x)=\frac{\pi_k\exp(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k))}{\sum_{I=1}^K\pi_I\exp(-\frac{1}{2}(x-\mu_I)^T\Sigma^{-1}(x-\mu_I))}$
进一步有：

参考上面的形式，我们得到了一个差不多的表达式！不同的是，我们需要做的不再是像之前一样求解 $\beta$ 而是，想办法与估计 $\mu,\Sigma$ 。