Andrew NG机器学习课程笔记(十)

规则化和模型选择
两个问题的引入:

模型选择问题:
对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以使用多项式回归。那么使用哪种模型好呢?
参数选择问题:
如果我们想使用带权值的回归模型,那么怎么选择权重W公式里的参数?
假设可选的模型集合是M={M1,M2,...Md},比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含在M中。

交叉验证:
对于模型选择问题,假设训练集是S,如果我们想使用经验风险最小化来度量模型的好坏,那么我们也许会这样来选择模型:

但这样其实是不行的,因为我们如果需要拟合一些样本点,使用高阶的多项式回归肯定比线性回归错误率要小,偏差小,方差却很大,会过度拟合。因此,我们改进算法如下:

这种方法称为hold-out cross validation或者简单交叉验证。
由于测试集是和训练集是不同的,因此我们可以简单的认为这里的经验错误近似于泛化错误,这里测试集的比例一般占全部数据的1/4到1/3,30%是典型值。
还可以对模型做改进,当选出最佳的模型Mi后,再在全部数据集上做一次训练,显然训练数据越多越好,模型参数越准确。
简单交叉验证的缺点在于得到的最佳模型是在70%的训练集上选出来的,不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时,再分出测试集后,训练数据就太少了。
我们队简单交叉验证做一个改进,如下:

这个方法称为K-fold cross validation(K折交叉验证)。说白了,这个方法就是将简单交叉验证的测试集改为1/K,每个模型训练K次测试K次,错误率为K次的平均。一般讲K取值为10.这样数据稀疏时基本上也能进行。显然,缺点是训练和测试次数过多。
极端情况下,K可以取样本个数,意味着每一个取一个样本做测试,这就是leave-one-out cross validation。
如果我们发明了一种新的学习模型或者算法,那么可以使用交叉验证来对模型进行评价。

特征选择:
特征选择严格上来说也是模型选择的一种。这里不去辨析他们的关系,重点说明问题。假设我们想对维度为n的样本进行回归,然后,n可能大多以至于远远大于训练样例数。但是我们感觉很多特征对于结果是无用的,想剔除n中的无用特征。n个特征就有2^n种情况。如果我们去枚举这些情况,然后利用交叉验证去选,太麻烦了。因此需要一些启发式搜索方法。

不断地用不同的特征来测试学习算法,待达到阈值或者特征总数时,从所有的F中选择错误率最小的。

既然有特征增加,就有特征减少,后者称为后向搜索,先将F设置为特征全集,然后额米茨剔除一个特征,并评价,直到达到阈值或者为空,然后选择最佳的F。
这两种算法都可以工作,但是计算复杂度比较大,时间复杂度为O(n^2)






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大兔齐齐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值