机器学习 2014斯坦福大学课程: 3 正则化问题

最新推荐文章于 2024-09-11 16:24:57 发布

hyfariel

最新推荐文章于 2024-09-11 16:24:57 发布

阅读量171

点赞数

分类专栏：机器学习文章标签：机器学习 2014斯坦福大学课程正则化 python

本文链接：https://blog.csdn.net/hyfariel/article/details/93782474

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习 2014斯坦福大学课程: 3 正则化问题

刚开始学习机器学习，学习的视频教程是coursera网站上吴恩达（Andrew Ng）教授的机器学习课程。
在此梳理并记录总结笔记，供学习交流，欢迎批评指正！

文章目录

机器学习 2014斯坦福大学课程: 3 正则化问题

机器学习分类回顾

监督学习（supervised learning )
1.1 回归问题（regression): 线性回归问题（linear regression）
1.2 分类问题（classification):逻辑回归问题（logistic regression）
无监督学习(unsupervised learning)
2.1 聚集问题（clustering)
2.2. 非聚集问题（non-clustering）

正则化（Regularization）

正则化用于优化线性回归和逻辑回归问题，解决过拟合问题。

过拟合(overfitting)问题
从左至右分别为：欠拟合（underfitting），拟合，过拟合
在这里插入图片描述

过拟合：当特征太多时，将样本集拟合的特别好，但是预测时难以一般化。
解决方法：
减少特征数，手动筛选保留一些特征
保留特征数，引入正则化，将参数的权重降低

成本函数正则化

线性回归
特征： $x_1, x_2,x_3,x_4...x_n$
参数： $\theta_0,\theta_1,\theta_2...\theta_n$
引入： $\lambda$
$J(\theta_0,\theta_1,\theta_2...\theta_n)=\frac{1}{2m}[\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]$
梯度下降算法为：
${ repeat\{$ $\theta_0= \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})*x_0^{(i)}$ $\theta_j = \theta_j - \alpha[\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}+\frac{\lambda}{m}\theta_j]$ $j = 1, 2, 3, . . . n$ $\}$

$j = 1 . . . n$ 注意 $\theta_0$ 不引入参数
若 $\lambda=1000$
$J(\theta_0,\theta_1,\theta_2,\theta_3,\theta_n)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+$ $1000\theta_1^2+1000\theta_2^2...$
当 $m i n J - > 0$ 1000 越大 $\theta越小$ $\theta$ 趋近于0
但是当 $\lambda$ 太大，所有参数 $\theta$ 都趋近0
那么将会变为一条 $y=\theta_0$ 直线，出现欠拟合情况。
逻辑回归
成本函数：
$J(\theta_0,\theta_1)=\frac{1}{m}\sum_{i=1}^m (-y^{(i)}*log(h_\theta(x^{(i)}))+(1-y^{(i))}log(1-h_\theta(x^{(i)}))) +\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
$J(\theta)=\frac{1}{m}\sum_{i=1}^m(-y.*log(h(\theta))+(1-y).*log(1-h(\theta)))$

梯度下降算法为：
${ repeat\{$ $\theta_0= \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})*x_0^{(i)}$ $\theta_j = \theta_j - \alpha[\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}+\frac{\lambda}{m}\theta_j]$ $j = 1, 2, 3, . . . n$ $\}$
正则方程
$\theta=(X^TX+\lambda\begin{bmatrix} 0 & && & \\ & 1 && & \\ & &\ddots&&\\ & & &1 & \\ & & &&1 \\ \end{bmatrix})^{-1}X^Ty$
证明过程略

程序实现

python代码实现
线性回归成本函数和梯度下降函数

import numpy as np
def computeCost(X,y,theta,l):#成本函数
   theta1=npconcatenate([np.array([0],theta[1:]))#将theta0换成0,不参与正则化
   m=X.shape[0]
   inner=X@theta-y #X@theta=X.dot(theta)
   return inner.T@inner/(2*m)+l/(2*m)*(theta1.T@theta1)
def gradientDescent(X,y,theta,alpha,interation):#梯度下降
  theta1=npconcatenate([np.array([0],theta[1:]))#将theta0换成0
   m=X.shape()
   J=[]
   for _ in range(interation):
       theta=theta-alpha/m*X.T@(X@theta-y)-alpha*l/m*theta1
       J.append(computeCost(X,y,theta))
   return theta,J

逻辑回归成本函数和偏导数函数

import numpy as np
def sigmoid(z):
    return 1/(1+np.exp(-z))
def computeCost(X,y,theta,l):#成本函数
    theta1=npconcatenate([np.array([0],theta[1:]))#将theta0换成0
    m=X.shape[0]
    h=sigmoid(X@theta)
    J=np.mean(-y*log(h)+(1-y)*log(h))+l/(2*m)*(theta1.T@theta1)
    return J
def gradient(X,y,theta,l):#导数
    theta1=npconcatenate([np.array([0],theta[1:]))
    m=X.shape[0]
    h=sigmoid(X@theta)
    grad=1/m*(X.T@(h-y))+l/m*theta1
    return grad

总结

增加了 $\lambda$ 一项，注意 $\theta_0$ 不考虑，从 $\theta_1$ 开始

参考

[1] 来自本课程课件和作业题，以及黄海广github上的中文笔记资料等

hyfariel

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 2014斯坦福大学课程: 3 正则化问题

机器学习 2014斯坦福大学课程: 3 正则化问题刚开始学习机器学习，学习的视频教程是coursera网站上吴恩达（Andrew Ng）教授的机器学习课程。在此梳理并记录总结笔记，供学习交流，欢迎批评指正！文章目录机器学习 2014斯坦福大学课程: 3 正则化问题机器学习分类回顾正则化（Regularization）程序实现总结参考机器学习分类回顾监督学习（supervise...
复制链接

扫一扫