机器学习之回归_l12norm-CSDN博客

本文链接：https://blog.csdn.net/weixin_42518228/article/details/107078219

线性回归

1.线性回归函数
$\hat{y_i}=\theta_0+\theta_1 x_1^{(i)}+\theta_2 x_2^{(i)}+...+\theta_m x_m^{(i)}$ $i - 第 i 个样本、 m - 特征个数$ $令\vec{x}_{(i)}=\begin{bmatrix} 1\\ x_1^{(i)}\\ x_2^{(i)}\\ ...\\ x_m^{(i)}\\ \end{bmatrix}、 \vec{\theta}=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ ...\\ \theta_m\\ \end{bmatrix}、X=\left [ \vec{x}_{(1)} \ \vec{x}_{(2)} \ ... \ \vec{x}_{(n)} \right ]$ $矩阵形式：Y=\vec{\theta}^TX$

2.普通线性回归
损失函数：最小二乘法
$L(\vec{\theta})=\frac{1}{2n}\sum_{i=1}^{n}(\hat{y_i}-y_i)^2$ $\hat{y_i}-第i个样本的预测值、y_i-第i个样本的真实值$

3.Ridge(岭回归)-L2-norm
损失函数：（引入L2正则项）
$L(\vec{\theta})=\frac{1}{2n}\sum_{i=1}^{n}(\hat{y_i}-y_i)^2+\lambda\sum_{j=1}^{m}\theta_j^2$ $\hat{y_i}-第i个样本的预测值、y_i-第i个样本的真实值$ $\lambda-正则化系数(超参数)$

4.LASSO回归-L1-norm
损失函数：（引入L1正则项）
$L(\vec{\theta})=\frac{1}{2n}\sum_{i=1}^{n}(\hat{y_i}-y_i)^2+\lambda\sum_{j=1}^{m}\left|\theta_j\right|$ $\hat{y_i}-第i个样本的预测值、y_i-第i个样本的真实值$ $\lambda-正则化系数(超参数)$

5.Elastic Net回归-L12-norm
损失函数：（按权重引入L1、L2正则项）
$L(\vec{\theta})=\frac{1}{2n}\sum_{i=1}^{n}(\hat{y_i}-y_i)^2+\lambda(\rho\sum_{j=1}^{m}\left|\theta_j\right|+(1-\rho)\sum_{j=1}^{m}\theta_j^2)$ $\hat{y_i}-第i个样本的预测值、y_i-第i个样本的真实值$ $\lambda-正则化系数(超参数)$

6.求解方法
1.正规方程法
2.梯度下降法

初始化 $\theta$ (随机初始化)
沿负梯度方向迭代，更新 $\vec{\theta}$ 使 $L(\vec{\theta})$ 更小 $\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}}$ $\alpha-学习率(步长)$

注：线性回归对参数 $\theta$ 而言是线性的，但对样本可以是非线性的，也就是说线性回归可以拟合非线性数据。
7.线性回归性能度量

样本总平方和TSS(Total Sum of Squares): $TSS=\sum_{i=1}^{n}(y_i-\bar{y}) \ \ \ \bar{y}:样本均值$
残差平方和RSS(Residual Sum of Squares): $RSS=\sum_{i=1}^{n}(\hat{y_i}-y_i)^2$ RSS也称误差平方和SSE(Sum of Squares for Error)
定义 $R^2=1-\frac{RSS}{TSS}$
- $R^2$ 越大，拟合效果越好
- $R^2$ 的最优值为1；若模型预测为随机值， $R^2$ 有可能为负
- 若预测值恒为样本期望， $R^2$ 为0
定义ESS(Explained Sum of Squares) $ESS=\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2$ $\geq ESS+RSS$ $当无偏估计时 : T S S = E S S + R S S$ ESS也称为回归平方和SSR(Sum of Squares for Regression)

逻辑回归

1.二分类回归

Sigmod函数
$h_{\theta}(x)=g(\vec{\theta}^Tx)=\frac{1}{1+e^{-\vec{\theta}^Tx}}$
损失函数
由概率论可知二分类问题服从0-1分布,其概率函数为 $\hat{y}^{(i)}=\left\{\begin{matrix} p_i \ \ \ \ \ \ \ \ \ ,y^{(i)}=1\\ 1-p_i \ \ ,y^{(i)}=0 \end{matrix}\right.$ 根据极大似然估计可得 $L(\theta)_{max}=\prod_{i=1}^{n} p_i^{y^{(i)}}(1-p_i)^{y^{(i)}}$ 假定 $p_i=h_{\theta}(x^{(i)})$ ，则有 $L(\theta)_{max}=\prod_{i=1}^{n} h_{\theta}(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$ $lnL(\theta)_{max}=\sum_{i=1}^{n}y^{(i)}\ln h_{\theta}(x^{(i)})+(1-y^{(i)}) \ln (1-h_{\theta}(x^{(i)}))$ 令 $l(\theta)_{min}=- \frac{1}{n} lnL(\theta)_{max}$ ，则可将损失函数定义为 $l(\theta)_{min}=-\frac{1}{n}\sum_{i=1}^{n}y^{(i)} \log{h(x^{(i)})+(1-y^{(i)}) \log{(1-h(x^{(i)}))}}$ 其偏导数为：(用于梯度下降) $\frac{\partial l(\hat{\theta})}{\partial \theta_j}=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$
注： $\frac{1}{n}$ 的作用是求平均，避免因样本个数差异导致批梯度下降与随机梯度下降的差异
2.多分类回归
Softmax函数
$h_{\theta}(x^{(i)})= \begin{bmatrix} p(y^{(i)}=1 \mid x^{(i)};\theta) \\ p(y^{(i)}=2 \mid x^{(i)};\theta) \\ ...\\ p(y^ {(i)}=k \mid x^{(i)};\theta)\\ \end{bmatrix} = \frac{1}{\sum_{j=1}^{k}e^{\theta_j^T x^{(i)}}} \begin{bmatrix} e^{\theta_1^T x^{(i)}} \\ e^{\theta_2^T x^{(i)}} \\ ...\\ e^{\theta_k^T x^{(i)}} \\ \end{bmatrix}$
其中 $\vec{\theta_k}$ 表示模型第k个类别的参数，所有类别的参数构成了一个参数矩阵 $\theta_{k*n}$ ， $\frac{1}{\sum_{j=1}^{k}e^{\theta_j^T x^{(i)}}}$ 的作用是对概率分布做归一化，使得所有类别概率之和为1
损失函数
$L(\theta)= - \frac{1}{n} \left [ \sum_{i=1}^{n} \sum_{j=1}^{k} 1 \left \{ y^{(i)}=j \right \} \ln \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^{k}e^{\theta_l^T x^{(i)}}} \right ]$
其中 $\left \{ y^{(i)}=j \right \}$ ，表示类别相同时取1，否则取0
又 $p(y^{(i)}=j|x^{(i)};\theta)=\frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^{k}e^{\theta_l^T x^{(i)}}}$ ,则
$L(\theta)= - \frac{1}{n} \left [ \sum_{i=1}^{n} \sum_{j=1}^{k} 1 \left \{ y^{(i)}=j \right \} \ln p(y^{(i)}=j|x^{(i)};\theta) \right ]$
权重衰减
由于实际应用中，Softmax回归参数冗余会带来的数值问题，因此对损失函数加入权重衰减，即
$L(\theta)= - \frac{1}{n} \left [ \sum_{i=1}^{n} \sum_{j=1}^{k} 1 \left \{ y^{(i)}=j \right \} \ln p(y^{(i)}=j|x^{(i)};\theta) \right ]+\frac{\lambda}{2}\sum_{j=1}^{k}\sum_{i=1}^{n}\theta_{ij}^2 \ \ \ \ \ \ (\lambda > 0)$
偏导数
$\frac{\partial L(\theta)}{\partial \theta_j}=-\frac{1}{n} \sum_{i=1}^{n}[x^{(i)}(1 \{ y^{(i)}=j \} - p(y^{(i)}=j|x^{(i)};\theta))]+\lambda \theta_j$