机器学习教程之7-应用机器学习的建议(Advice for Applying Machine Learning)

最新推荐文章于 2022-07-26 14:58:06 发布

豆-Metcalf

最新推荐文章于 2022-07-26 14:58:06 发布

阅读量610

点赞数

分类专栏：机器学习机器学习的sklearn实现文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010837794/article/details/72854377

版权

机器学习同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

机器学习的sklearn实现

12 篇文章 9 订阅

订阅专栏

0.概述

1.决定下一步做什么

关于机器学习，可以做两件事情，开发一个机器学习系统或者改进一个机器学习系统的性能。

当发现训练好的模型预测数据时有较大误差，可以尝试如下几个角度以减少误差：
（1）获取更多训练实例，这样做是有效的，但是代价太大，因而优先考虑下面的几种方法；
（2）尝试减少或增加特征的数量；
（3）尝试较少或增加正则化程度lamda。

可以通过机器学习诊断法帮助我们选择哪种方法提高机器学习的性能。

2.评估一个假设

通常用70%的数据作为训练集，用剩下30%的数据作为测试集。

3.模型选择和交叉验证集

使用60%的数据作为训练集，使用20%的数据作为交叉验证集，使用20%的数据作为测试集。

模型选择的方法为：
（1）使用训练集训练出N个模型；
（2）用N个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值），选取使得代价函数最小的模型；
（3）使用步骤2中选出的模型对测试集计算得出推广误差（代价函数的值）。

4.诊断偏差和方差

偏差对应欠拟合；
方差对应过拟合。

5.正则化和偏差/方差

正则化系数lamda通常是0-10之间呈现2倍关系的值(0,0.01,0.02,…,5.12,10 共12个）。

lamda较小时，会发生欠拟合；
lamda较大时，会发生过拟合。

6.学习曲线

我们通常使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。

在高偏差/欠拟合的情况下，增加数据到训练集不一定能有帮助。

在高方差/过拟合的情况下，增加更多数据到训练集可能提高算法效果。

7.决定下一步做什么

以学习曲线为代表的诊断法能帮助我们提高机器学习算法的性能。

关键还是多实践才能培养提高机器学习算法性能的能力。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。