机器学习（九）- Regularization

最新推荐文章于 2024-04-18 21:24:24 发布

mike112223

最新推荐文章于 2024-04-18 21:24:24 发布

阅读量483

点赞数

分类专栏： stanford机器学习学习笔记文章标签：正则化

本文链接：https://blog.csdn.net/mike112223/article/details/75417737

版权

stanford机器学习学习笔记专栏收录该内容

23 篇文章 6 订阅

订阅专栏

Regularization

承接上一篇overfitting，我们来讲一讲关于Regularization正则化。
正则化本质上就是保留所有的特征的同时，简化我们的模型，使得我们的模型经过学习之后不会过拟合。所谓的简化模型呢，就是让特征参数变得很小，越小说明这个特征占的比重就小，对模型的影响就小，模型就相对简单。
我们以线性回归为例，直观看来，就是让复杂的曲线变得平滑，就相当于下图中的 $\theta_3$ 和 $\theta_4$ 约等于0，当然不等于0，因为没有舍弃。
这里写图片描述

正则化的实现

正则化的实现方式是在我们的代价函数后面加入一个正则项（惩罚项）
$J(\theta) = cost(h_\theta(x),y)+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
其中 $\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$ 就是正则项， $\lambda$ 是正则系数，正则系数的作用就在于调整前后两项的大小去达到一种平衡，第一项是我们原来的代价函数，它的作用在于让我们能够很好的fit我们的训练集，第二项是我们的正则项，它的作用在于惩罚我们的特征参数简化我们的模型防止过拟合。那么 $\lambda$ 如果太大，就会导致所有的特征参数都被惩罚的很小，正则项占据了主导，导致underfit欠拟合，如果太小，惩罚作用几乎没有，导致overfit过拟合。所以适当的对 $\lambda$ 取值，才能达到效果。
那么我们进一步看一下参数更新方程：
$KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ \theta :&= \t…$
习惯上，我们是不惩罚 $\theta_0$ 的。

正则化的线性回归

上面已经给出了方程，我们只需要把我们的代价函数带进去即可：
$J(\theta) = \frac{1}{2m}(\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2)$
$\begin{aligned} Repeat &\{ \\ \theta_0 &:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \theta_j &:=\theta_j-\alpha(\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j)\ \ \ (j=1,2,...,n)\\ \} \end{aligned}$

对于正规方程：
$\begin{aligned} \theta & = (X^TX+\lambda L)^{-1}X^Ty \\ where \ \ \ L&= \begin{bmatrix} 0&& \\ &1& \\ &&1 \\ &&&... \\ &&&&1 \\ \end{bmatrix} \end{aligned}$
正则项的引入还带来一个好处，就算原来的 $X^TX$ 是不可逆的，加入了正则项之后 $(X^TX+\lambda L)$ 是一定可逆的。

正则化的逻辑回归

上面已经给出了方程，我们只需要把我们的代价函数带进去即可：

$J(\theta) = -\frac{1}{m}(\sum_{i=1}^my^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)})))+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
参数更新方程就不列了，跟线性回归的相同，只不过 $h_\theta(x)$ 不同而已。
下面列举一个matlab实例来说明，先给出矩阵形式：
$\begin{aligned} J(\theta) & = -\frac{1}{m}(y^T\log g(X\theta)+(1-y^T)\log (1-g(X\theta)))+\frac{\lambda}{2m}\theta_{1,2,...,n}^T\theta_{1,2,...,n}\\ \theta_0 :&= \theta_0-\alpha\frac{1}{m}x_0^T(g(X\theta)-y)\\ \theta_{1,2,...,n} :&= \theta_{1,2,...,n}-\alpha\frac{1}{m}X_{1,2,...,n}^T(g(X\theta)-y) \end{aligned}$

% 说明一下这是stanford第三周作业，前面的数据处理部分就不交代了，下面的两个function应该独立成.m文件被调用

function g = sigmoid(z)
g = 1./(1+exp(-z));
end

function [J, grad] = costFunctionReg(theta, X, y, lambda)
m = length(y); % number of training examples
J = -1/m*(y'*log(sigmoid(X*theta))+ ...
    (1-y')*log(1-sigmoid(X*theta)))+ ...
    lambda/(2*m)*sum(theta(2:end).^2);
grad(1) = 1/m*(X(:,1)'*(sigmoid(X*theta)-y));
grad(2:end) = 1/m*(X(:,2:end)'*(sigmoid(X*theta)-y))+lambda/m*theta(2:end);
end


% Initialize fitting parameters
initial_theta = zeros(size(X, 2), 1);
% Set regularization parameter lambda to 1 (you should vary this)
lambda = 1;
% Set Options
options = optimset('GradObj', 'on', 'MaxIter', 400);
% Optimize
[theta, J, exit_flag] = ...
	fminunc(@(t)(costFunctionReg(t, X, y, lambda)), initial_theta, options);

mike112223

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（九）- Regularization

Regularization承接上一篇overfitting，我们来讲一讲关于Regularization正则化。正则化本质上就是保留所有的特征的同时，简化我们的模型，使得我们的模型经过学习之后不会过拟合。所谓的简化模型呢，就是让特征参数变得很小，越小说明这个特征占的比重就小，对模型的影响就小，模型就相对简单。我们以线性回归为例，直观看来，就是让复杂的曲线变得平滑，就相当于下图中的θ3...
复制链接

扫一扫

专栏目录