2.5 算法比较

14年的时候有人做过一个实验,比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

算法XGBOOSTGBDTSVMRFAdaboostOther
分类
随机森林放回抽样(1/3)分类投票回归均值样本和特征均随机采样CART二叉决策树,特征多次减小方差并行精度高且抗噪不敏高维
训练集噪音大会导致过拟合子树较深
AdaBoost高精度不用特征工程不易过拟合减小偏差放回抽样
异常值敏感
GBDTCART树深度<5叶节点<10减小偏差
异常值敏感
Xgboost高精度高并发缺失值不敏感自定义损失函数效率高分类/回归高维特征选择加正则,列抽样
SVM可处理高维可处理非线性核函数可选不易过拟合需归一化距离无需整个训练集
内存消耗大核函数选择需技巧不适于较大数据集缺失值敏感异常值敏感
神经网络准确率高并行处理可分布式存储数据量越大越强特征间有隐含关系鲁棒性联想记忆
参数多黑盒时间长
K-means简单易实现大数据集
局部收敛适数值型K难取初始质心敏感噪敏感不适于凸簇
KNN-可解释性强-
贝叶斯可解释性强特征相关度低高效处理高维,但效果差条件独立难成立但效果还可以易于实现
决策树树状结构易于理解可处理非线性数据不受异常值干扰集成学习的基础可处理缺失值样本短期对大量样本好
易过拟合忽略样本间相关性特征选择函数缺陷
逻辑回归结果可解释可正则避免过拟合易于通过梯度下降优化对数损失函数
非线性能力差
线性回归直观易理解正则化避免过拟合线性模型易于梯度下降优化最小二乘法优化
不能处理非线性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值