应用机器学习的建议(Advice for Applying Machine Learning)

最新推荐文章于 2024-01-24 21:40:00 发布

Neeas

最新推荐文章于 2024-01-24 21:40:00 发布

阅读量206

点赞数

本文链接：https://blog.csdn.net/qq_44217614/article/details/102913157

版权

    总是把时间浪费在毫无意义的尝试上。所以，是使用更多的训练

样本：

    我们将数据分成训练集和测试集，通常用 70%的数据作为训

练集，用剩下 30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据，通常我们要对数据进行“洗牌”，然后再分成训练集和测试集。

模型选择的方法为：

训练集误差和交叉验证集误差近似时：偏差/欠拟合
交叉验证集误差远大于训练集误差时：方差/过拟合

使用训练集训练出 12 个不同程度正则化的模型
用 12 模型分别对交叉验证集计算的出交叉验证误差
选择得出交叉验证误差最小的模型
运用步骤 3 中选出模型对测试集计算得出推广误差，我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上：

• 当 λ 较小时，训练集误差较小（过拟合）而交叉验证集误差较大
• 随着 λ 的增加，训练集误差不断增加（欠拟合），而交叉验证集误差则是先减小后增加

学习曲线就是一种很好的工具，我经常使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验（sanity check）。学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量（m）的函数绘制的图表。

有些方法可能改进我们学习算法的效果，有些方法则可能是徒劳。

获得更多的训练实例——解决高方差
尝试减少特征的数量——解决高方差
尝试获得更多的特征——解决高偏差
尝试增加多项式特征——解决高偏差
尝试减少正则化程度 λ——解决高偏差
尝试增加正则化程度 λ——解决高方差
神经网络的方差和偏差：

你可以充分运用以上这些内容来判断哪些途径可能是有帮助的。而哪
些方法可能是无意义的。如果你理解了以上几节视频中介绍的内容，并且懂得如何运用。那么你已经可以使用机器学习方法有效的解决实际问题了。你也能像硅谷的大部分机器学习从业者一样，他们每天的工作就是使用这些学习算法来解决众多实际问题。

关注