机器学习系统设计及算法评估

最新推荐文章于 2024-04-22 21:56:47 发布

蓬某某

最新推荐文章于 2024-04-22 21:56:47 发布

阅读量522

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wang_yunpeng/article/details/104865491

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文探讨了机器学习中数据集的划分与应用，包括训练集、验证集和测试集的作用。介绍了如何通过调整特征数量、正则化参数来选择最佳模型，并分析了学习曲线、误差分析的重要性，提出了模型修正策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 数据集分类

数据集分为训练集（training set），交叉验证集（cross validation set），测试集（test set）。比例为60:20:20。
使用训练集对模型进行训练，得到使训练集误差 $J_{train}(\theta)$ 最小的一系列参数 $\theta$ ，然后代入验证集，得到使验证集误差 $J_{cv}(\theta)$ 最小的模型，最后代入测试集，得到该模型的误差 $J_{test}(\theta)$ 。为什么不直接使用 $J_{cv}(\theta)$ 作为该模型的误差？使用 $J_{test}(\theta)$ 具有公平性，而使用 $J_{cv}(\theta)$ 得到的肯定是该模型这组数据的最小值，不具有普遍意义。

2. 模型选择

2.1. 选择合适的二项式次数

在进行特征选择的时候，需要选择特征值的多少次幂。将特征值的不同次幂作为不同的模型，如：
model 1: $\theta_0+\theta_1x$
model 2: $\theta_0+\theta_1x+\theta_2x^2$
model 3: $\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$
…
model n: $\theta_0+\theta_1x+\theta_2x^2+...+\theta_nx^n$
将这些模型利用训练集，验证集得到每个模型的误差 $J_{cv}(\theta)$ 。其误差曲线如下：
mierror
可以得到：

当 $J_{cv}(\theta)$ 很大， $J_{train}(\theta)\approx J_{cv}(\theta)$ 时，此时处于高偏差，欠拟合的状态。
当 $J_{cv}(\theta)$ 很大， $J_{train}(\theta)$ 很小时，此时处于高方差，过拟合的状态。

2.2. 选择合适的正则化参数 $\lambda$

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{i=m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\frac{\lambda}{2m}\sum_{i=1}^{i=m}\theta_i^2$
将 $\lambda=0,0.01,0.02,0.04,0.08,...,10.24$ 作为不同模型的参数，得到通过训练集验证集得到的误差 $J_{cv}(\theta)$ 。其误差曲线如下：
lambdaerror
可以得到：

当 $J_{cv}(\theta)$ 很大， $J_{train}(\theta)\approx J_{cv}(\theta)$ 时，此时处于高偏差，欠拟合的状态。
当 $J_{cv}(\theta)$ 很大， $J_{train}(\theta)$ 很小时，此时处于高方差，过拟合的状态。

2.3. 修正欠拟合和过拟合

欠拟合（高偏差）状态：

增加特征变量
增加特征值的多次幂特征
减小正则化参数 $\lambda$ 的值

过拟合（高方差）状态：

获取更多训练样本
减少特征变量
增大正则化参数 $\lambda$ 的值

3. 学习曲线

随着训练样本量的增加，误差曲线如下：
merrorfit
merroroverfit
可以得到：

随着m增大，当 $J_{cv}(\theta)$ 很大， $J_{train}(\theta)\approx J_{cv}(\theta)$ 时，此时处于高偏差，欠拟合的状态。
随着m增大，当 $J_{cv}(\theta)$ 很大， $J_{cv}(\theta)$ 与 $J_{train}(\theta)$ 相差很大时，此时处于高方差，过拟合的状态。可以从图中看出，随着m的增大， $J_{cv}(\theta)$ 与 $J_{train}(\theta)$ 相差会越来越小，所以增加样本数量可有效的解决过拟合问题。

4. 误差分析

模型训练完毕后，通过测试数据集可以得到该模型下，测试数据的误差率。但是单单通过误差率不能有效的评估该模型。比如：偏斜类。
偏斜类：正样本数量远远大于负样本的数量，这样机器学习而来的模型起误差率可能大于全部预测为正的误差率，但这样的预测并不是一个机器学习算法。所以引入查准率和召回率。
TP(True Positive)：实际为正(positive)，预测正确(true)的数量。
FP(False Positive)：实际为正(positive)，预测错误(false)的数量。
FN(False Negative)：实际为负(negative)，预测错误(false)的数量。
TN(True Negative)：实际为负(negative)，预测正确(true)的数量。
查准率：所有预测为正的样本中实际为正的样本所占的比例。
$\frac{TP}{TP+FP}$
召回率：所有实际为正的样本中预测为正的样本所占的比例。
$\frac{TP}{TP+FN}$
在 $l o g i s t i c$ 回归中，增大阈值，则Precision增大，Recall减小；减小阈值，则Precision减小，Recall增大。
利用 $F_1$ 值评估算法性能， $F_1$ 最大，算法性能越好。
$F_1=2\frac{Precision\ast Recall}{Precision+Recall}$