ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结

最新推荐文章于 2022-01-24 22:24:24 发布

EchoIIR

最新推荐文章于 2022-01-24 22:24:24 发布

阅读量735

点赞数 3

分类专栏： ML 文章标签：过拟合、欠拟正则化特征拓维

本文链接：https://blog.csdn.net/qq_27087743/article/details/89310804

版权

本文探讨了机器学习中高偏差（欠拟合）和高方差（过拟合）的问题。高偏差时，模型过于简单，特征映射是解决方法；而高方差时，模型复杂度过高，正则化能有效缓解过拟合。通过交叉验证集和测试集选择最佳的正则化参数lambda，以提高模型的泛化能力。

摘要由CSDN通过智能技术生成

一、高偏差（欠拟合）（high bias）

1.1、表现

1.2 、解决方法 — Feature Mapping for Polynomial Regression

二、高方差（过拟合）（variance）

2.1、表现

2.2、解决方法 — 正则化

一、高偏差（欠拟合）（high bias）

1.1、表现

% 1.1、无正则化的线性回归的模型
lambda = 0;  
[theta] = trainLinearReg([ones(m, 1) X], y, lambda);
% 1.2、无正则化的线性回归的学习情况
[error_train, error_val] = ...
    learningCurve([ones(m, 1) X], y, ...
                  [ones(size(Xval, 1), 1) Xval], yval, ...
                  lambda);

左图可以看出回归效果不好，偏差大，模型过于简单，不能反映实际情况，由右图看出，此时增加样本容量，交叉训练误差和训练误差慢慢接近，两者都挺大的。故高偏差的情况下增加样本容量并不能降低偏差，提高效率。

1.2 、解决方法 — Feature Mapping for Polynomial Regression

通过对Feature处理，增加非线性项，使得模型可以更加精确（复杂）
对数据分为训练集、测试集、交叉验证集

lambda = 0;
[theta] = trainLinearReg(X_poly, y, lambda);
[error_train,error_test ,error_val] = ...
 learningCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest,lambda);
% Plot training data and fit
figure,