Andrew NG机器学习课程笔记（十）

最新推荐文章于 2023-04-26 21:43:23 发布

大兔齐齐

最新推荐文章于 2023-04-26 21:43:23 发布

阅读量958

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datuqiqi/article/details/46334121

版权

机器学习算法专栏收录该内容

15 篇文章 1 订阅

订阅专栏

规则化和模型选择

两个问题的引入：

模型选择问题：

对于一个学习问题，可以有多种模型选择。比如要拟合一组样本点，可以使用线性回归，也可以使用多项式回归。那么使用哪种模型好呢？

参数选择问题：

如果我们想使用带权值的回归模型，那么怎么选择权重W公式里的参数？

假设可选的模型集合是M={M1,M2,...Md}，比如我们想分类，那么SVM、logistic回归、神经网络等模型都包含在M中。

交叉验证：

对于模型选择问题，假设训练集是S，如果我们想使用经验风险最小化来度量模型的好坏，那么我们也许会这样来选择模型：

但这样其实是不行的，因为我们如果需要拟合一些样本点，使用高阶的多项式回归肯定比线性回归错误率要小，偏差小，方差却很大，会过度拟合。因此，我们改进算法如下：

这种方法称为hold-out cross validation或者简单交叉验证。

由于测试集是和训练集是不同的，因此我们可以简单的认为这里的经验错误近似于泛化错误，这里测试集的比例一般占全部数据的1/4到1/3，30%是典型值。

还可以对模型做改进，当选出最佳的模型Mi后，再在全部数据集上做一次训练，显然训练数据越多越好，模型参数越准确。

简单交叉验证的缺点在于得到的最佳模型是在70%的训练集上选出来的，不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时，再分出测试集后，训练数据就太少了。

我们队简单交叉验证做一个改进，如下：

这个方法称为K-fold cross validation（K折交叉验证）。说白了，这个方法就是将简单交叉验证的测试集改为1/K,每个模型训练K次测试K次，错误率为K次的平均。一般讲K取值为10.这样数据稀疏时基本上也能进行。显然，缺点是训练和测试次数过多。

极端情况下，K可以取样本个数，意味着每一个取一个样本做测试，这就是leave-one-out cross validation。

如果我们发明了一种新的学习模型或者算法，那么可以使用交叉验证来对模型进行评价。

特征选择：

特征选择严格上来说也是模型选择的一种。这里不去辨析他们的关系，重点说明问题。假设我们想对维度为n的样本进行回归，然后，n可能大多以至于远远大于训练样例数。但是我们感觉很多特征对于结果是无用的，想剔除n中的无用特征。n个特征就有2^n种情况。如果我们去枚举这些情况，然后利用交叉验证去选，太麻烦了。因此需要一些启发式搜索方法。

不断地用不同的特征来测试学习算法，待达到阈值或者特征总数时，从所有的F中选择错误率最小的。

既然有特征增加，就有特征减少，后者称为后向搜索，先将F设置为特征全集，然后额米茨剔除一个特征，并评价，直到达到阈值或者为空，然后选择最佳的F。

这两种算法都可以工作，但是计算复杂度比较大，时间复杂度为O（n^2）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Andrew NG机器学习课程笔记（十）

规则化和模型选择两个问题的引入：模型选择问题：对于一个学习问题，可以有多种模型选择。比如要拟合一组样本点，可以使用线性回归，也可以使用多项式回归。那么使用哪种模型好呢？参数选择问题：如果我们想使用带权值的回归模型，那么怎么选择权重W公式里的参数？假设可选的模型集合是M={M1,M2,...Md}，比如我们想分类，那么SVM、logistic回归、神经网络等模型都包含
复制链接

扫一扫

专栏目录

大兔齐齐 CSDN认证博客专家 CSDN认证企业博客

码龄9年

26: 原创

22万+: 周排名

50万+: 总排名

15万+: 访问

: 等级

1280: 积分

108: 粉丝

36: 获赞

16: 评论

106: 收藏

私信

关注

热门文章

分类专栏

最新评论

相对全面的SLURM集群的配置、安装及一些小问题的解决
风轻云淡这: 可以在conf文件中添加一下节点ip地址
相对全面的SLURM集群的配置、安装及一些小问题的解决
Doctor.Mr: 解决了吗？
相对全面的SLURM集群的配置、安装及一些小问题的解决
weixin_44843081: 大佬我今天在公司安装的时候遇到一个问题，大致是这样的，我配了两台一主一从，一个管理节点，一个计算节点，都配置的差不多了，用sinfo的测试的时候，它的状态开始显示为idel，但是过了1分钟左右，就会慢慢变成idel*，然后就变成down*，查看了日志，显示是连接从服务器ip和端口问题，报 ip:端口 not route to host的问题。但是我这两台都是做了相互的免密登录操作。然后时间也都同步过了。当然也相互ping的通，端口也都开放的。弄了半天也不知道是啥原因。能帮忙说下大致是啥原因吗
阿里天池大数据之移动推荐算法大赛总结及代码全公布
炸毛肉回复程序员龙湫: 请问您和您舍友的matlab程序还有吗？能不能给我发一份，救救这个刚入门推荐算法但是只会用matlab的小白吧，谢谢了！！shutinghhh@163.com ,打扰了！！
阿里天池大数据之移动推荐算法大赛总结及代码全公布
cccccererr: 您好，打扰了！请问能分享一下当时比赛的源数据吗？我们在进行建模比赛，希望能够用于模型研究，谢谢！我的邮箱是1265544209@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大兔齐齐 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。