[机器学习与scikit-learn-3]:scikit-learn模型地图与模型选择

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:


目录

概述

start->

if 样本数大于<50个, 则直接放弃(欠拟合),scikit-learn模型,至少需要有50个样本数据

if 样本数大于>=50个, 则scikit-learn能处理。

    if 分类问题, 则为分类问题

            if 标签数据,则为有监督的分类问题

            else 无标签数据,则为无监督的分类问题:聚类问题

        else 则为非分类问题

                if 数量性问题,则为拟合问题

             elsif  如果观察数据总体特性,则是降维问题

             else:目前还不支持


概述

scikit-learn提供了大量的已知模型,下图形展现了如何选择scikit-learn的模型,来解决特定的现实问题。

start->

if 样本数大于<50个, 则直接放弃(欠拟合),scikit-learn模型,至少需要有50个样本数据

if 样本数大于>=50个, 则scikit-learn能处理。

    if 分类问题, 则为分类问题

            if 标签数据,则为有监督的分类问题

            

                        if 样本数小于100K, 则优选选择线性SVC

                                if 是文本数据, 则选择Naive Bayes算法

                                else 选择K近邻居算法

                        else 样本大于100K, 则优选选择SGD分类算法

                               if 不能工作,则选择 选择复合增强算法,如Kernel approximation+SVC算法

            else 无标签数据,则为无监督的分类问题:聚类问题

            

                        if 样本数目是已知的

                                if 样本数<10K, 则使用miniBatch KMeans算法

                                else 则使用 KMeans算法

                                        if 不能工作,则选择特殊的聚类算法GMM

                        else 样本数未知

                                if 样本数<10, 则使用MeanShift算法

                                else 难度太大,不支持

        else 则为非分类问题

                if 数量性问题,则为拟合问题

                

                        if 样本数<100K, 则直接可以使用SGD拟合

                        else 样本>=100K, 则需要进一步确定

                                if 部分个别的特征起关键作用,则使用 弹性网络,Lasso

                                else 则选择 RidgeRegression

                                        如果不能工作,则选择复合、增强算法

             elsif  如果观察数据总体特性,则是降维问题

                        则直接使用Randomized PCA算法

                                如果不能工作,则进一步确定

                                        if 样本数少于10K, 

                                                则使用Isomap算法

                                        else 则使用 kernel approximation算法

             else:目前还不支持

                

备注:从这样图上可以看出,scikit-learn也就20种左右常用的算法。


作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文火冰糖的硅基工坊

你的鼓励是我前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值