machine learning个人笔记系列（四）

seedcup

于 2018-08-21 10:08:55 发布

阅读量120

点赞数

分类专栏： ml

本文链接：https://blog.csdn.net/seedcup/article/details/81901875

版权

ml 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

正则化(Regularization)

向Andrew Ng的机器学习课程致敬

正则化(Regularization)

问题

这里写图片描述

如上面两图右侧所示，当模型特征比较多的时候，模型容易过拟合，这会导致模型在训练集上表现很好，但是在测试集上就表现很差。

解决方式

减少特征量的两种方式
1. 人工筛选特征
2. 使用特征选择算法来筛选
正则化
1. 保留所有的特征，但是减小参数的值
2. 适用于某种有很多特征，并且所有特征都对其值有贡献的任务

举例

下面以多变量线性回归为例来说明一下正则化的使用方式及效果。
如下面公式所示，正则化就是在原有的损益函数的后面加上了参数的平方和， $\lambda$ 是正则化参数，用来调整正则化作用的。

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i) - y (i))) 2 + λ \sum j = 1 n θ 2 j] m i n J (θ)

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^{m}(h_{\theta}(x^{(i)} - y^{(i)}))^2 + \lambda\sum_{j=1}^{n}\theta_j^2] \\ min \ J(\theta)$

$\lambda$ 设置过大，会导致模型欠拟合，并且梯度下降算法不会收敛（也就是求不出最优解），因此该参数需要取一个合适的值

下面再来算一下之前学的多变量线性回归和逻辑回归模型加上正则化后，梯度下降算法的计算公式

损益函数
$J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i) - y (i))) 2 + λ \sum j = 1 n θ 2 j]$ $J(\theta) = \frac{1}{2m}[\sum_{i=1}^{m}(h_{\theta}(x^{(i)} - y^{(i)}))^2 + \lambda\sum_{j=1}^{n}\theta_j^2]$
参数迭代

$θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 - λ m θ j]$ $\theta_0 := \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} \\ \theta_j := \theta_j - \alpha[\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} - \frac{\lambda}{m}\theta_j]$
即 $θ j : = θ j (1 - α λ m) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0$ $\theta_j := \theta_j(1- \alpha\frac{\lambda}{m}) - \alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)}$
$1 - α λ m < 1$ $1- \alpha\frac{\lambda}{m} < 1$
因此正则化实际上是在原有的参数更新基础上额外减去一个值，从而对参数其约束作用。

正则方程：
当数据矩阵没有逆矩阵的时候（m < n, 即样本数小于特征数），使用正则方程不能求解，但是通过添加一个正则化矩阵可以将其转化为一个可逆的矩阵，从而用正则方程求解。公式如下：
原有的正则方程如下：

$θ = (X T X) - 1 X T y$ $\theta = (X^TX)^{-1}X^Ty$
改造后的如下：
$θ = (X T X + λ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 011 . . . 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥) - 1 X T y$ $\theta = (X^TX + \lambda \left[ \begin{array}{cccccc} 0\\ & 1 & \\ & & 1 \\ &&& ... \\ &&&& 1 \end{array} \right ])^{-1}X^Ty$

这里第一行为0，表示 $x_0$ ，也即不用对其进行正则化

seedcup

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
machine learning个人笔记系列（四）

正则化(Regularization)问题解决方式举例向Andrew Ng的机器学习课程致敬正则化(Regularization)问题如上面两图右侧所示，当模型特征比较多的时候，模型容易过拟合，这会导致模型在训练集上表现很好，但是在测试集上就表现很差。解决方式减少特征量的两种方式人工筛选特征使用特征选择算法来筛选正则化保留...
复制链接

扫一扫

专栏目录