吴恩达机器学习之建议

最新推荐文章于 2024-06-13 10:55:41 发布

蜗牛fly吧

最新推荐文章于 2024-06-13 10:55:41 发布

阅读量354

点赞数 1

本文链接：https://blog.csdn.net/u011943074/article/details/88077781

版权

在进行机器学习时，经常会有这样的困惑：1.选择假设模型；2.当学习结果不好时，该如何快速分析，决定下一步做什么，比如增加样本数量，还是增加特征数量等。吴老师给了一些很实用的建议。
一、模型选择和训练、验证、测试集
当选择模型时，或者调整一些超参数时，需要把数据集分为3部分：训练数据集，即用来训练模型；验证数据集，不参与训练模型；测试数据集，不参与训练模型。
在这里，验证数据集是非常有必要的。从狭义上来说，它不参与模型训练，不影响具体模型的参数；但它参与了模型的选择或者超参数的调整，从广义上来说，间接影响了最终的训练模型，是广义意义上的训练数据集。而测试数据集，没有参与训练的任何环节。
因此，只有当最终的训练数据集精度、验证数据集精度与测试数据集精度均较高时，才能确保学习结果好。
二、高偏差问题与高方差问题区分
1.欠拟合，导致高偏差问题。即训练误差很大，验证误差也很大。
2.过拟合，导致高方差问题。即训练误差很小，但验证误差很大。
3.正则化惩罚系数与高偏差、高方差问题关系：当惩罚系数很大时，参数均很小，造成假设模型很简单，易出现欠拟合，即高偏差问题。当惩罚系数很小时，每个参数值较大，即模型较复杂，易导致过拟合，即高方差问题。
4.一些实用方法：
高偏差问题(欠拟合)：尝试获取更多的特征，减小惩罚系数等。
高方差问题(过拟合)：尝试增大惩罚系数，增多训练样本，减少特征数等。
三、学习曲线
概念：随着训练样本的逐渐增多，算法训练出的模型的表现能力。
作用：查看模型的学习效果；通过学习曲线可以清晰的看出模型对数据的过拟合和欠拟合。
通过分析，确定是过拟合还是欠拟合，再决定下一步做什么。
四、精确率、召回率与F度量
精确率(Precision)和召回率(Recall)是信息检索，人工智能，和搜索引擎的设计中很重要的评价指标。

这里是引用

P(Precision) = TP / (TP + FP);含义：结果中，真正的正样本占所有预测的正样本(真正的正样本与假的正样本之和)的比例。
R(Recall) = TP / (TP + FN);含义：结果中，真正的正样本占应该被预测到的正样本(预测到的正样本与被判定为负样本之和)的比例。
精确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高，当然如果两者都低，那是什么地方出问题了。
F度量（F-measure），结合精确率和召回率。
F = 2PR / (P+R)。其中，定义 1/F = 1/P + 1/R。

蜗牛fly吧

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习之建议

在进行机器学习时，经常会有这样的困惑：1.选择假设模型；2.当学习结果不好时，该如何快速分析，决定下一步做什么，比如增加样本数量，还是增加特征数量等。吴老师给了一些很实用的建议。一、模型选择和训练、验证、测试集当选择模型时，或者调整一些超参数时，需要把数据集分为3部分：训练数据集，即用来训练模型；验证数据集，不参与训练模型；测试数据集，不参与训练模型。在这里，验证数据集是非常有必要的。从狭义...
复制链接

扫一扫