根据数据的特性选择合适的机器学习方法(各机器学习模型比较)

 

根据数据选择模型:

离散指大量01,连续就是连续值。

大量高维离散特征:

  1. LR:很好的拟合,可以使用正则化避免过拟合,实现更简单
  2. RF:也可以,主要优点是对缺失值不敏感,bagging策略防止过拟合。对低维少量样本不适合。
  3. GDBT: 不适合,容易过拟合,(如训练时通过个别特征就可以拟合,但只有一层)
  4. SVM:处理具备高维特征的数据集,离散连续都可以

少量低维连续特征:

  1. GDBT:适合,内部使用CART回归实现,节点分支则自动实现特征选择和离散等处理。特征多,使用全部特征处理,不能有效存储。
  2. RF: 不适合,难以拟合。特征数量少
  3. LR: 可能存在共线性,导致模型不稳定
  4. SVM: 特征较多的适合比较合适。

样本量:

  • 大:LR、RF、GDBT
  • 小:SVM

各模型之间的对比:

  • LR逻辑回归:①分类模型 ②判别模型 ③用条件概率最大化求最优解 ④模型复杂度不高,适合大量简单数据 ⑥数据离散和归一化
  • SVM支持向量机:①分类模型(改造下可用于回归) ②判别模型 ③用分离超平面,几何间隔最大化求最优解 ④适合求解比较复杂数据 ⑤对缺失值敏感,距离度量 小样本表现由于其他模型 ⑥数据归一化
  • DT决策树:①分类模型、回归模型 ②判别模型 ③选择最优解点划分样本空间,使样本混乱度减少 ④适合较为复杂数据
  • 集成模型:
  1. RF随机森林:①bagging集成方法 ②通过减少模型的方差(波动)进行性能提升 ③对异常值不敏感,但容易对噪声数据过拟合 ④分类树或回归树都可以(分类:信息熵、基尼指数,回归:最小二乘法,即均方误差)适合离散型或连续型特征。对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题。可以并行。
  2.  GDBT梯度提升树:①boosting集成方法 ②通过减少模型的偏差进行性能提升 ③对异常值敏感 ④回归树(CART) ⑤做分类时情况 ⑥数据归一化会加快收敛速度
  3. xgboost:
  4. lightGBM:
  • HMM:
  • CRF:
  • EM:
  • 最大熵:
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值