机器学习日记(7)

本文是机器学习日记的第七篇,主要探讨如何改进机器学习系统的性能。内容涵盖评估假设、模型选择、交叉验证、偏差与方差的诊断、正则化及其对偏差和方差的影响,以及学习率的理解。通过实例解析,阐述了如何通过增加训练样本、调整特征数量、改变正则化程度等方法来解决欠拟合和过拟合问题。
摘要由CSDN通过智能技术生成

机器学习日记(7)

机器学习系统的开发与性能改进

假如你在开发一个机器学习系统,或者想试着改进一个机器学习系统的性能,你应如何决定接下来应该选择哪条道路?为了解决这一问题,我想仍然使用预测房价的学习例子,假如你已经完成了正则化线性回归,也就是最小
化代价函数𝐽的值,在你得到你的学习参数以后,你将你的假设函数放到一组新的房屋样本上进行测试,你发现在预测房价时产生了巨大的误差,现在你的问题是要想改进这个算法,接下来应该怎么办?
实际上你可以想出很多种方法来改进这个算法的性能,其中一种普遍的办法是使用更多的训练样本。获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法:
1.尝试减少特征的数量
2.尝试获得更多的特征
3.尝试增加多项式特征
4.尝试减少正则化程度𝜆
5.尝试增加正则化程度𝜆

评估一个假设(Evaluating a Hypothesis)

当我们确定学习算法的参数的时候,我们考虑的是选择参量来使训练误差最小化,有人认为得到一个非常小的训练误差一定是一件好事,但我们已经知道,仅仅是因为这个假设具有很小的训练误差,并不能说明它就一定是一个好的假设函数。而且我们也学习了过拟合假设函数的例子,所以这推广到新的训练集上是不适用的。
在这里插入图片描述那么,你该如何判断一个假设函数是过拟合的呢?对于这个简单的例子,我们可以对假设函数ℎ(𝑥)进行画图,然后观察图形趋势,但对于特征变量不止一个的这种一般情况,还有像有很多特征变量的问题,想要通过画出假设函数来进行观察,就会变得很难甚至是不可能实现。
因此,我们需要另一种方法来评估我们的假设函数过拟合检验。为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为
训练集,用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值