【机器学习】过拟合问题以及正则化

最新推荐文章于 2024-01-20 10:57:26 发布

dodobibibi

最新推荐文章于 2024-01-20 10:57:26 发布

阅读量278

点赞数

本文链接：https://blog.csdn.net/dodobibibi/article/details/89389241

版权

概念

为了得到一致假设而使假设变得过度严格称为过拟合。

定义

给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

判断方法

一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

出现原因

过拟合的问题出现在变量（θ）过多的时候，这时候我们没有更多的数据去拟合模型，虽然损失函数的值基本接近于0。

如何解决过拟合的问题

减少特征的数量
（1）手动选择特征数
（2）模型选择
正则化
保留所有特征，但是减少量级或者参数θ_j的大小

正则化

在这里插入图片描述

Lasso回归

"""
Lasso 回归
Lasso用的是l1的正则化
"""
import numpy as np
from sklearn.linear_model import Lasso
from sklearn.linear_model import SGDRegressor

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

lasso_reg = Lasso(alpha=0.15)
lasso_reg.fit(X, y)
print(lasso_reg.predict([[1.5]]))
print(lasso_reg.coef_)

sgd_reg = SGDRegressor(penalty='l1', n_iter=1000)
sgd_reg.fit(X, y.ravel())
print(sgd_reg.predict([[1.5]]))
print(sgd_reg.coef_)

岭回归

"""
岭回归
岭回归运用了L2正则化
"""
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.linear_model import SGDRegressor

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# alpha是惩罚项里的alpha，solver处理数据的方法，auto是根据数据自动选择，svd是解析解，sag就是随机梯度下降
ridge_reg = Ridge(alpha=1, solver='auto')
# 学习过程
ridge_reg.fit(X, y)
# 预测
print(ridge_reg.predict([[1.5], [2], [2.5]]))
# 打印截距
print(ridge_reg.intercept_)
# 打印系数
print(ridge_reg.coef_)

"""
岭回归和sgd & penalty=2是等价的
"""
sgd_reg = SGDRegressor(penalty='l2')
sgd_reg.fit(X, y.ravel())
print(sgd_reg.predict([[1.5], [2], [2.5]]))
# 打印截距
print("W0=", sgd_reg.intercept_)
# 打印系数
print("W1=", sgd_reg.coef_)

Elastic Net

使用L1和L2结合的正则化。

dodobibibi

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】过拟合问题以及正则化

概念为了得到一致假设而使假设变得过度严格称为过拟合。定义给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。判断方法一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。出现这种现象的主...
复制链接

扫一扫