【机器学习】如何快速找到模型算法中存在的问题

最新推荐文章于 2023-12-26 10:44:51 发布

小冻子

最新推荐文章于 2023-12-26 10:44:51 发布

阅读量640

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_38418878/article/details/102695389

版权

本文探讨了机器学习中的模型问题，包括训练集、验证集和测试集的划分，Bias和Variance的平衡，学习曲线的重要性，以及如何处理倾斜数据。通过理解这些概念，可以帮助优化模型性能，降低欠拟合和过拟合的风险。

摘要由CSDN通过智能技术生成

训练集、验证集和测试集

训练集(train sets)主要用于训练模型，调整参数，验证集(validation sets)用于进一步调参，而测试集(test sets)用于最后评估模型的精度。一般训练集、验证集和测试集的比例为60%,20%,20%。

Bias&Variance

我们的学习模型和真实值之间的误差主要来自三个方面：Bias，Variance和随机误差。其中随机误差，也叫噪声，是我们无法避免的。所以我们主要讨论Bias和Variance。
Bias通常是由于我们的模型欠拟合(underfit)造成的，而Variance通常是由于模型过拟合(Overfit)造成的。
下图是形象地表示出多项式的度与High Bias和High Variance的关系。（图来自Andrew Ng）
在这里插入图片描述
下图是正则化参数 $\lambda$ 与Bias/Variance之间的关系

注意：在计算 $\lambda$ 与误差之间的关系时，先用带有正则参数的损失函数 $J(\theta)$ 计算出 $\Theta$ ，然后将求出的 $\Theta$ 计算出不带正则的 $J_{cv}(\theta)$ 和 $J_{train}(\theta)$ 。