数据和模型相关的总结

最新推荐文章于 2023-03-22 22:11:18 发布

csdn_SUSAN

最新推荐文章于 2023-03-22 22:11:18 发布

阅读量521

点赞数

分类专栏： ML特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_SUSAN/article/details/103483569

版权

ML特征工程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1. 机器学习到底需要多少数据
2. 模型选择
- 2.1 正则化
- 2.2 交叉验证

这里记录一些平时读到的数据相关的思考和总结，以便用到的时候方便查阅。

1. 机器学习到底需要多少数据

参考知乎文章《「机器学习」到底需要多少数据》
(1) 数据的粒度是否满足问题的需要。
(2) 考虑数据量和维度的关系，这里考虑维度灾难。
(3) 数据的重复性，包括样本之间的重复性和特征之间的重复性。
(4) 数据的有效性，两个看似关联的数据实际上没啥关系，所以千万不要简单的看相关性和绘图趋势，要从实际的业务上去思考。
(5) 数据量和模型选择，虽然sk-learn中有一个模型选择图，但是实际上我们还是需要经验和不断地尝试。
数据量很小，用朴素贝叶斯、逻辑回归或支持向量机
数据量适中或者较大，用树模型，优先 xgboost和lightgbm
数据量较大，尝试使用神经网络

2. 模型选择

没有免费的午餐理论告诉我们机器学习模型其实没有定式：具体问题具体分析。
奥卡姆剃刀原则告诉我们，满足预测性能的前提下，模型要尽量简单，以提高泛化能力。
现实中我们有很多学习算法可供选择，甚至同一学习算法的不同参数配置也会产生不同模型。如何进行模型选择或者使用哪种参数配置，这就是模型选择问题。

2.1 正则化

模型选择最典型的方法就是正则化，这是奥卡姆剃刀原则的一种实现方式。
L1 L2 正则化，L1 会有特征选择的作用优于L2。

2.2 交叉验证

最理想的解决方案：对候选模型的泛化误差进行评估，选择泛化误差最小的模型。
所以模型选择问题，就转化为模型评估问题。它是一个不断试错，不断调优的过程。
常用评估方法：

留出法
简单的分成训练集和测试集
交叉验证
k折划分，多次验证
自助法
重复采样

评估方法有了，那么涉及到不同模型的评估指标。评估指标很多，我想这个需要涉及到不同模型不同业务考虑采用不同的评估指标。后边将会写一篇文章，对评估指标做总结。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据和模型相关的总结

文章目录1. 机器学习到底需要多少数据2. 模型选择这里记录一些平时读到的数据相关的思考和总结，以便用到的时候方便查阅。1. 机器学习到底需要多少数据参考知乎文章《「机器学习」到底需要多少数据》(1) 数据的粒度是否满足问题的需要。(2) 考虑数据量和维度的关系，这里考虑维度灾难。(3) 数据的重复性，包括样本之间的重复性和特征之间的重复性。(4) 数据的有效性，两个看似关联的数据实...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。