根据数据的特性选择合适的机器学习方法（各机器学习模型比较）

置顶 dabingsun

于 2020-03-31 22:16:34 发布

阅读量3k

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dabingsun/article/details/105228349

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

根据数据选择模型：

离散指大量01，连续就是连续值。

大量高维离散特征：

LR：很好的拟合，可以使用正则化避免过拟合，实现更简单
RF：也可以，主要优点是对缺失值不敏感，bagging策略防止过拟合。对低维少量样本不适合。
GDBT: 不适合，容易过拟合，（如训练时通过个别特征就可以拟合，但只有一层）
SVM：处理具备高维特征的数据集，离散连续都可以

少量低维连续特征：

GDBT：适合,内部使用CART回归实现，节点分支则自动实现特征选择和离散等处理。特征多，使用全部特征处理，不能有效存储。
RF: 不适合，难以拟合。特征数量少
LR: 可能存在共线性，导致模型不稳定
SVM: 特征较多的适合比较合适。

样本量：

大：LR、RF、GDBT
小：SVM

各模型之间的对比：

LR逻辑回归：①分类模型 ②判别模型 ③用条件概率最大化求最优解 ④模型复杂度不高，适合大量简单数据 ⑥数据离散和归一化
SVM支持向量机：①分类模型（改造下可用于回归） ②判别模型 ③用分离超平面，几何间隔最大化求最优解 ④适合求解比较复杂数据 ⑤对缺失值敏感，距离度量小样本表现由于其他模型 ⑥数据归一化
DT决策树：①分类模型、回归模型 ②判别模型 ③选择最优解点划分样本空间，使样本混乱度减少 ④适合较为复杂数据
集成模型：

RF随机森林：①bagging集成方法 ②通过减少模型的方差（波动）进行性能提升 ③对异常值不敏感，但容易对噪声数据过拟合 ④分类树或回归树都可以（分类：信息熵、基尼指数，回归：最小二乘法，即均方误差）适合离散型或连续型特征。对海量数据，尽量避免了过度拟合的问题；对高维数据，不会出现特征选择困难的问题。可以并行。
GDBT梯度提升树：①boosting集成方法 ②通过减少模型的偏差进行性能提升 ③对异常值敏感 ④回归树（CART） ⑤做分类时情况 ⑥数据归一化会加快收敛速度
xgboost：
lightGBM:

HMM:
CRF：
EM:
最大熵：

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。