回归-regression_xi:regress-CSDN博客

本文深入探讨了回归分析的基础概念和技术，包括线性回归、Logistic回归等模型，并介绍了梯度下降、最大似然估计等优化方法。此外还讨论了如何通过正则化技术避免过拟合，以及评估回归模型性能的指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归：数据(xi,yi)(i=1,n) xi是数据，yi是标记label，yi是连续的数据进行建模是回归问题，若yi是离散的叫分类问题classification；
回归–>>regression来自高尔顿；

线性回归，Logistic回归（二分类），Softmax回归（多分类）；

梯度下降，最大似然估计（MLE），最小二乘法;

线性回归模型：
$h_{\theta }(x)=\sum_{i=0}^{n}\theta_{i}*x_{i}=\theta^{T}x$
x是数据， $\theta$ 是未知的参数；
$y^{(i)}=\theta ^{T}x^{(i)}+\varepsilon ^{(i)}$
$\varepsilon ^{(i)}$ 是独立同分布的，服从均值为0，方差为 $\sigma ^{2}$ 的正态分布；

最大似然估计+线性回归+样本服从正态分布—–》最小二乘法

其实是Legendre 提出了最小二乘法，高斯在此基础上提出正态分布；

假设：内涵性，简化性，发散性；

将M个N个特征的样本组成矩阵X：
X每一行对应一个样本，共M行，每一列对应一个特征，共N维，目标函数：
$J(\theta)=\frac{1}{2}(X\theta-y)^{T}(X\theta -y)=\frac{1}{2}(\theta^{T}X^{T}X\theta-\theta^{T}X^{T}y-y^{T}X\theta+y^{\theta}y)$
目标函数取最大值，令其导数为0
$J^{'}(\theta)=2X^{T}X\theta-2X^{T}y=0$ ====>
$X^{T}X\theta=X^{T}y$ 若 $X^{T}X$ 可逆====>
$\theta=(X^{T}X)^{-1}X^{T}y$

$X^{T}X$ 半正定，因为对于任意的非零向量u有：
$u^{T}X^{T}Xu=(Xu)^{T}Xu>=0$
所以对于任意的正实数 $\lambda >0 ,X^{T}X+\lambda I$ 正定，正定矩阵一定可逆，所以可以给 $\theta=(X^{T}X)^{-1}X^{T}y$ 中的 $X^{T}X$ 加上 $\lambda I$ ====>
$\theta =(X^{T}X+\lambda I)^{-1}X^{T}y$

线性回归的目标函数：
$J(\theta)=\frac{1}{2}\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$
为了防止过拟合，在目标函数里加入正则项；
将目标函数增加平方和损失：
$J(\theta)=\frac{1}{2}\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2}+\lambda \sum ^{n}_{j=1}\theta _{j}^{2}$
上式中后面一项是正则项，叫L2-NORM（L2正则项）—->Ridge回归；

$J(\theta)=\frac{1}{2}\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2}+\lambda \sum ^{n}_{j=1}|\theta _{j}|$
上式中是L1-NORM—-》LASSO回归（Least Absolute Shrinkage and Selection Operator），用LARS算法解决LASSO计算；
可以用LASSO去降维；

还有L0-NORM，正则项为不为0参数的个数；
L1-NORM是L0-NORM的近似；

综合Ridge回归和LASSO回归得到Elastic Net：
$J(\theta)=\frac{1}{2}\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2}+\lambda (\rho \sum ^{n}_{j=1}|\theta _{j}|+(1-\rho )\sum ^{n}_{j=1}\theta _{j}^{2})$

正则化和稀疏

稀疏解：求解参数，希望某些参数为0（某些参数是无关的）；
LASSO可以保证稀疏；

上述中的 $\lambda$ 是超参数，其实调参调的是 $\lambda$ ，实际的参数 $\theta$ 可以通过样本数据及 $\lambda$ 直接计算出的；

总平方和：TSS(Total Sum of Squares):TSS=m*Var(Y)= $\sum(y_{i}-\overline {y})^{2}$ ；
残差平方和：RSS(Residual Sum of Squares),也是误差平方和SSE(Sum of Squares for Error)= $\sum (y_{i}-\widehat {y})^{2}$ ；
$R^{2}=1-\frac {RSS}{TSS}$
$R^{2}$ 越大拟合效果越好，最优值为1，所模型预测为随机值，其可能为负值，若预测值恒为样本期望，则其值为0；
ESS(Explained Sum of Squares)= $\sum (\overline {y}_{i}-\widehat {y})^{2}$ ,TSS>=ESS+RSS,ESS也称为回归平方和(Sum of Square for Regression)；

局部加权回归：LWR(Local Weight Linear Regression)
$\sum w^{(i)}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$
权值： $w^{(i)}=exp(-\frac{(x^{(i)}-x)^{2}}{2\tau^{2}})$
其中 $\tau$ 称为带宽，它控制着训练样本随着与 $x^{(i)}$ 距离的衰减速率；