[机器学习与scikit-learn-3]：scikit-learn模型地图与模型选择

最新推荐文章于 2023-01-18 19:01:12 发布

文火冰糖的硅基工坊

最新推荐文章于 2023-01-18 19:01:12 发布

阅读量909

点赞数 3

分类专栏：机器学习与scikit-learn 文章标签：机器学习 sklearn python 模型地图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HiWangWenBing/article/details/123121592

版权

机器学习与scikit-learn 专栏收录该内容

58 篇文章 40 订阅

订阅专栏

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：

目录

if 样本数大于<50个, 则直接放弃(欠拟合)，scikit-learn模型，至少需要有50个样本数据

if 样本数大于>=50个, 则scikit-learn能处理。

if 分类问题，则为分类问题

if 标签数据，则为有监督的分类问题

else 无标签数据，则为无监督的分类问题：聚类问题

else 则为非分类问题

if 数量性问题，则为拟合问题

elsif 如果观察数据总体特性，则是降维问题

else：目前还不支持

概述

scikit-learn提供了大量的已知模型，下图形展现了如何选择scikit-learn的模型，来解决特定的现实问题。

start->

if 样本数大于<50个, 则直接放弃(欠拟合)，scikit-learn模型，至少需要有50个样本数据

if 样本数大于>=50个, 则scikit-learn能处理。

if 分类问题，则为分类问题

if 标签数据，则为有监督的分类问题

if 样本数小于100K, 则优选选择线性SVC

if 是文本数据，则选择Naive Bayes算法

else 选择K近邻居算法

else 样本大于100K, 则优选选择SGD分类算法

if 不能工作，则选择选择复合增强算法，如Kernel approximation+SVC算法

else 无标签数据，则为无监督的分类问题：聚类问题

if 样本数目是已知的

if 样本数<10K, 则使用miniBatch KMeans算法

else 则使用 KMeans算法

if 不能工作，则选择特殊的聚类算法GMM

else 样本数未知

if 样本数<10, 则使用MeanShift算法

else 难度太大，不支持

else 则为非分类问题

if 数量性问题，则为拟合问题

if 样本数<100K, 则直接可以使用SGD拟合

else 样本>=100K, 则需要进一步确定

if 部分个别的特征起关键作用，则使用弹性网络，Lasso

else 则选择 RidgeRegression

如果不能工作，则选择复合、增强算法

elsif 如果观察数据总体特性，则是降维问题

则直接使用Randomized PCA算法

如果不能工作，则进一步确定

if 样本数少于10K,

则使用Isomap算法

else 则使用 kernel approximation算法

else：目前还不支持

备注：从这样图上可以看出，scikit-learn也就20种左右常用的算法。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：

文火冰糖的硅基工坊

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
[机器学习与scikit-learn-3]：scikit-learn模型地图与模型选择

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：目录概述start->if 样本数大于<50个, 则直接放弃(欠拟合)，scikit-learn模型，至少需要有50个样本数据if 样本数大于>=50个, 则scikit-learn能处理。 if 分类问题，则为分类问题 if 标签数据，则为有监督的分类问题 else 无标签数据，则为无监督的分类问题：聚...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文火冰糖的硅基工坊 你的鼓励是我前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。