七月算法机器学习笔记6 -- 工作流程与模型优化

thystar

于 2016-11-19 14:17:21 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thystar/article/details/53227727

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了在不同数据集条件下如何选择合适的机器学习模型，并针对过拟合与欠拟合问题提出了模型优化策略。文中详细阐述了从数据样本量、特征维度到模型参数选择的方法论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这套笔记是跟着七月算法四月机器学习班的学习而记录的，主要记一下我再学习机器学习的时候一些概念比较模糊的地方，具体课程参考七月算法官网：http://www.julyedu.com/

特征工程总结

这里写图片描述

模型选择

没有那种模型是万能的，在特定情况下选择适合的模型

对这幅图做如下解释
从start开始，先看数据的训练样本
在数据样本比较小的情况下，需要添加更多样本或放弃机器学习，用人工规则处理。
当样本足够时：并且是连续值问题，采用回归方法解决。
果是离散样本分类，则使用分类模型。当分类样本数量不大，用线性SVM解决，如果是文本数据分类，使用朴素贝叶斯；如果不是，使用LR或SVM等。如果样本很大，用SVM就很难，它收敛时间非常长，这样，使用随机梯度下降或核估计方法。
如果是回归问题：
在样本数据非常小的情况下，采用线性方法，如果样本数据足够，使用随机梯度下降等方法
如果样本维度很高，使用降维方法（无监督学习）
如果无标签，使用聚类方法。

已知模型，选择参数
这里写图片描述
需要考虑参数和次数

参数选择方法：

将数据划分
70% 训练集，用于建模
20% 交叉验证，参数选择
10% 测试集，效果的评估

K折交叉验证，
将训练集分为k个部分，轮番用其中某一折作为验证集，前面其他作为训练集。每折用不同测模型，用验证集验证。

模型参数含义

这里写图片描述

超参数的选取

这里写图片描述

模型效果优化

这里写图片描述
过拟合：高波动
欠拟合：高偏差
工程判定模型处于什么状态：学习曲线

横坐标：不同量的训练样本
纵坐标：准确度。
实线表示交叉验证集的准确度，

对错分样本的处理

模型融合：比如，不同模型一起投票
这里写图片描述

bagging每次不用全部的数据集。用不同模型判别（比如n个模型给的结果取多数的判定结果）。减小波动

这里写图片描述
Adboost给分错的样本更高的权重，努力学习错分样本。

参考资料：
七月算法：机器学习四月班：http://www.julyedu.com/
图片来自于课程PPT

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。