线性模型（贰）

最新推荐文章于 2024-10-10 15:13:00 发布

冈仁波齐下写一串优美的代码

最新推荐文章于 2024-10-10 15:13:00 发布

阅读量180

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37846020/article/details/83509035

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

正则化（Regulization）

当出现 $\hat\theta=(X^TX)^{-1}X^TY$ ，其中 $X^TX)$ 是奇异矩阵的时候，怎么处理？所以引出了正则化的概念。
$X=\begin{bmatrix} 1&x_1^{(1)}&...&x_n^{(1)}\\ 1&x_1^{(2)}&...&x_n^{(2)}\\ ...&...& ...& ...\\ 1&x_1^{(N)}&...&x_n^{(N)}\\ \end{bmatrix}\quad =\begin{bmatrix} {x^{(1)}}^T\\ {x^{(2)}}^T\\ ...\\ {x^{(N)}}^T\\ \end{bmatrix}\quad$
$\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n\\ \end{bmatrix},Y=\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ ...\\ y^{(N)}\\ \end{bmatrix}$
$X\theta=\hat y,\quad J(\theta)=\frac{1}{2N}||X\theta-Y||_2^2,\quad \frac{\partial J(\theta)}{\partial\theta}=0$
$\theta=(X^TX)^{-1}X^TY$
当出现不可求逆时，出现下面方法：

1.1 岭回归（Ridge Regression）

$J(\theta)=\frac{1}{2N}||X\theta-Y||_2^2+\frac{1}{2}\lambda||\theta||_2^2,\quad||\theta||_2^2=\theta_1^2+\theta_2^2+....+\theta_n^2$
$\lambda$ 很大时，模型注重求取 $\theta$ 平方和最小。
在之前求梯度下降的公式中，我们有 $\theta_j=\theta_j-\alpha(\frac{1}{N}\sum_{i=1}^N(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)})$ 作为更行公式，在这里我们的更新公式变为：
$\theta_j=\theta_j-\alpha(\frac{1}{N}\sum_{i=1}^N(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\lambda\theta_j)$
$\theta_j=(1-\frac{\alpha\lambda}{N})\theta_j-\alpha(\frac{1}{N}\sum_{i=1}^N(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)})$
每次更新都在使 $\theta$ 缩放。
解析表达式中，我们得到：
$\theta=(X^TX+\lambda I)^{-1}X^TY$
式中 $I$ 是一个 $n+1\times n+1$ 的单位矩阵，对于 $\theta_0$ 不需要惩罚项来控制，所以，在单位矩阵的第一行对应0.加上之后，很多奇异矩阵变为非奇异矩阵，于是可以求逆。

1.2 LASSO(Least Absolute Shrinkage and Selection Operator)

可以删选特征，做特征选择。同时让更多 $\theta$ 变为0。可以等价为：
$min_\theta||\theta||_0,\quad s.t.\quad X\theta=Y$
因为0范数不是凸函数，无法做优化，所以我们改求1范数，同时可以较好的模拟0范数。
等价为：
$J(\theta)=\frac{1}{2N}||X\theta-Y||_2^2+\sum_{i=1}^N\lambda|\theta|$
选择了不重要的特征，减少了模型的复杂度。在LASSSO的优化过程中，在某些点上不可导，梯度下降的方法明显不可以使用。
LASSO优化方法：