机器学习日记（7）

最新推荐文章于 2024-01-04 13:30:29 发布

Matthewww

最新推荐文章于 2024-01-04 13:30:29 发布

阅读量768

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Matthewww/article/details/122514691

版权

本文是机器学习日记的第七篇，主要探讨如何改进机器学习系统的性能。内容涵盖评估假设、模型选择、交叉验证、偏差与方差的诊断、正则化及其对偏差和方差的影响，以及学习率的理解。通过实例解析，阐述了如何通过增加训练样本、调整特征数量、改变正则化程度等方法来解决欠拟合和过拟合问题。

摘要由CSDN通过智能技术生成

机器学习日记（7）

机器学习系统的开发与性能改进

假如你在开发一个机器学习系统，或者想试着改进一个机器学习系统的性能，你应如何决定接下来应该选择哪条道路？为了解决这一问题，我想仍然使用预测房价的学习例子，假如你已经完成了正则化线性回归，也就是最小
化代价函数𝐽的值，在你得到你的学习参数以后，你将你的假设函数放到一组新的房屋样本上进行测试，你发现在预测房价时产生了巨大的误差，现在你的问题是要想改进这个算法，接下来应该怎么办？
实际上你可以想出很多种方法来改进这个算法的性能，其中一种普遍的办法是使用更多的训练样本。获得更多的训练实例——通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法：
1.尝试减少特征的数量
2.尝试获得更多的特征
3.尝试增加多项式特征
4.尝试减少正则化程度𝜆
5.尝试增加正则化程度𝜆

评估一个假设（Evaluating a Hypothesis）

当我们确定学习算法的参数的时候，我们考虑的是选择参量来使训练误差最小化，有人认为得到一个非常小的训练误差一定是一件好事，但我们已经知道，仅仅是因为这个假设具有很小的训练误差，并不能说明它就一定是一个好的假设函数。而且我们也学习了过拟合假设函数的例子，所以这推广到新的训练集上是不适用的。
在这里插入图片描述那么，你该如何判断一个假设函数是过拟合的呢？对于这个简单的例子，我们可以对假设函数ℎ_(𝑥)进行画图，然后观察图形趋势，但对于特征变量不止一个的这种一般情况，还有像有很多特征变量的问题，想要通过画出假设函数来进行观察，就会变得很难甚至是不可能实现。
因此，我们需要另一种方法来评估我们的假设函数过拟合检验。为了检验算法是否过拟合，我们将数据分成训练集和测试集，通常用70%的数据作为
训练集，用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据，通常我们要对数据进行“洗牌”，然后再分成训练集和测试集。