第四部分：正则化

最新推荐文章于 2024-09-14 16:23:11 发布

Jimsum173

最新推荐文章于 2024-09-14 16:23:11 发布

阅读量99

点赞数

分类专栏：模型文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/Jimsum173/article/details/120904831

版权

模型专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文探讨了机器学习中常见的过拟合问题，特别是在高维特征下模型过于复杂导致对新数据预测能力下降。介绍了两种主要解决方案：特征选择和正则化。正则化通过调整代价函数，引入参数惩罚机制来防止过拟合。同时，展示了线性回归和逻辑回归中的正则化应用，并提供了相关代码示例。

摘要由CSDN通过智能技术生成

1.过拟合问题（Overfitting）

问题：如下图三，如果特征非常多，可以拟合出一个非常复杂并适合训练集的函数，但是对于新数据却基本上失去了分类功能。也即：x次数越高，拟合得越好，但是相应的预测能力也变差，比如回归问题：

如分类问题：

解决方案：

*丢弃一些不要的特征.可以手工选择，也可以选择一些模型选择算法（例：PCA）

*正则化。也即保持特征，减小参数大小。

2.代价函数

问题：我们的模型是 $h_\theta=\theta_0+\theta_1x_1+\theta_2x^2_2+\theta_3x^3_3+\theta_4x^4_4$ ,正是这些高次项导致了过拟合

解决：减小高次项的参数，用来惩罚高次项。

修改代价函数： ${min}_\theta\frac{1}{2m}[\sum^m_i=1(h_\theta(x^i)-y^i)^2+1000\theta^2_3+10000\theta^2_4)]$ 这样子就能尽可能惩罚高次项。但另一个问题就是：我们并不知道要选哪一个参数来惩罚。所以我们进一步对代价函数进行优化 $J_\theta=\frac{1}{2m}[\sum^m_{i=1}(h_\theta(x^i)-y^i)^2+\lambda\sum^n_{j=1}\theta^2_j]$

正则化参数 $\lambda$ :选择不同的正则化参数会有不同的结果，正则化参数选小了会导致过拟合，正则化参数选太大，会导致模型变成： $h(\theta)=\theta_0$ ,如下图所示

3.线性回归的正则化

线性回归的代价函数为： $J_\theta=\frac{1}{2m}[\sum^m_{i=1}(h_\theta(x^i)-y^i)^2+\lambda\sum^n_{j=1}\theta^2_j]$

正则化梯度下降算法：

利用正规方程来优化线性回归模型：

4.逻辑回归

逻辑回归的模型假设：

正则化代价函数：

$J(\theta)=\frac{1}{m}\sum^m_{i=1}[-y^ilog(log(h_\theta(x^i))-(1-y^i)log(1-h_\theta(x^i))]+\frac{\lambda}{2m}\sum^n_{j=1}\theta^2_j$

python代码：

import numpy as np
def costReg(theta,Xy,learningRate):
    theta =np.matrix(X)
    X = np.matrix(theta)
    y = np.matrix(y)
    first =np.muitiply(-y,np.log(sigmoid(X*theta.T)))
    second = np.multiply(1 - y),mp.log(1 - sigmoid(X*theta.T)))
    reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:theta.sgape[1]],2))
    return np.sum(first - second)/(len(x)) +reg

梯度下降算法：