简陋版本的数据挖掘算法选择模型

这两天看了一些将机器学习算法应用场景以及优缺点的文章,比如这样的

机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

于是产生了建立一个算法选择模型的想法,总结了下列4个维度:

1.算法属性

每个算法都有自己的特长,发挥算法的特长才能事半功倍。算法属性包括:

维度属性取值范围
算法属性算法类型分类,回归,聚类
是否参数型是,否
是否黑箱是,否
是否集成是,否
是否探索性是,否
是否在线学习是,否
风险过拟合风险,欠拟合风险,局部最优风险
适应能力强,弱

2.数据要求

数据是原材料,经过算法得出结果,但有的原材料跟算法就是合不来。数据要求包括:

维度属性取值范围
数据要求两变量散点分布线性相关,非线性相关
数据量要求大数据,不要求大数据
假设严格程度严格,不严格
特征敏感度缺失值敏感,异常值敏感,相关性敏感,稀疏性敏感,特征维数敏感

3.结果要求

算法不重要,得出的结果才重要。结果要求包括:

维度属性取值范围
结果要求预测度高,中,低
解释度高,低
稳定性高,低
个性度高,中,低
意义概率有意义,可能无意义

4.性能要求

快鱼总是能吃掉慢鱼,尤其在动辄就谈大数据的背景下。性能要求包括:

维度属性取值范围
性能要求大数据能力具备,不具备
性能开销大,小

 

最后是这个模型的用法:

  • 总结每个算法的各个维度取值

  • 应用时,根据每个维度,确定可选算法集

  • 可选算法集求交集,确定待验算法

  • 比较待验算法,确定最终算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值