常见机器学习算法（模型）优缺点比较

最新推荐文章于 2024-06-26 21:54:59 发布

lmh的随笔

最新推荐文章于 2024-06-26 21:54:59 发布

阅读量3.4k

点赞数 3

分类专栏：机器学习文章标签：优缺点

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34329931/article/details/88937343

版权

本文对比了多种机器学习算法的优缺点：朴素贝叶斯分类效率高但需计算先验概率；逻辑回归实现简单但对非线性特征需转换；线性回归适用于线性数据；GBDT在准确性与效率间取得平衡；决策树易过拟合但解释性强；Xgboost准确率高但内存消耗大；SVM处理非线性问题有效但选核函数关键；随机森林处理高维数据能力强但对噪声敏感；神经网络准确度高但训练时间长；K-Means聚类算法简单但对初始值和K值选择敏感。

摘要由CSDN通过智能技术生成

博客已转移至 https://lmhgithi.github.io/ 内容更全

朴素贝叶斯NB（分类）（生成）

优点

稳定的分类效率
对小规模数据表现很好，能处理多分类任务，适合增量式训练
对缺失数据不太敏感，算法较简单，多用于文本分类
如果满足条件独立假设，NB的收敛速度将快于判别模型如LR，所以只需要少量数据，即使NB条件独立假设不独立，仍然表现很出色。

缺点

需要计算先验概率
分类决策存在错误率
对输入数据的表达形式很敏感
（不能学习出特征间的相互作用）

逻辑回归（分类）（判别）

伯努利分布

有很多正则化模型的方法L0，L1，L2等

优点

实现简单
分类时计算量小，速度快，存储资源少
便利的观测样本概率分布

问题

可以简单的用L2正则解决多重共线性

缺点

特征空间很大时，逻辑回归性能不太好
容易欠拟合，一般准确率不会太高
不能很好地处理多特征
只能处理二分类（softmax可用于多分类），且必须线性可分。
对于非线性特征，需要进行转换（如核函数）

如果想处理多分类

可以对每个类别都建立一个二分类器，带有这个类别的样本标记1，不带的标记0。
softmax回归，即修改LR的损失函数，让其适合多酚类问题，不只考虑1-0的损失，考虑每个样本标记的损失，并且把激活函数替换为softmax函数。

线性回归（回归）（判别）

高斯分布

基本思想是用梯度下降法对最想二乘法形式的误差函数进行优化，也可以用normal
equation直接求解：
在这里插入图片描述

LWLR（局部加权线性回归）
在这里插入图片描述
优点

实现简单，计算简单

缺点

不能拟合非线性数据

GBDT梯度提升决策树（回归）

优点

可以灵活处理各种类型的数据，包括连续值和离散值。
在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如
Huber损失函数和Quantile损失函数。

缺点：

由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

决策树（分类、回归）（判别）

Id3、c4.5、cart

信息增益：

最低0.47元/天解锁文章

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。