常见算法优缺点

最新推荐文章于 2024-07-08 22:12:26 发布

JayRoxis

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量1.9k

点赞数 2

分类专栏：数据挖掘机器学习机器学习-常见算法文章标签：算法数据挖掘机器学习

本文链接：https://blog.csdn.net/JayRoxis/article/details/72860484

版权

常见算法优缺点

参考出处：
http://blog.csdn.net/boon_228/article/details/51909771

国际权威的学术组织the IEEE International Conference on Data Mining
(ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means,
SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都
可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。

1.朴素贝叶斯

朴素贝叶斯属于生成式模型（关于生成模型和判别式模型，主要还是在于是否是要求联合分布），非常简单，你只是做了一堆计数。如果注有条件独立性假设（一个比较严格的条件），朴素贝叶斯分类器的收敛速度将快于判别模型，如逻辑回归，所以你只需要较少的训练数据即可。即使NB条件独立假设不成立，NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用，用mRMR中R来讲，就是特征冗余。引用一个比较经典的例子，比如，虽然你喜欢Brad Pitt和Tom Cruise的电影，但是它不能学习出你不喜欢他们在一起演的电影。

优点：

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练；
对缺失数据不太敏感，算法也比较简单，常用于文本分类。

缺点：

需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感。

理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

2.Logistic Regression（逻辑回归）

属于判别式模型，有很多正则化模型的方法（L0， L1，L2，etc），而且你不必像在用朴素贝叶斯那样担心你的特征是否相关。与决策树与SVM机相比，你还会得到一个不错的概率解释，你甚至可以轻松地利用新数据来更新模型（使用在线梯度下降算法，online gradient descent）。如果你需要一个概率架构（比如，简单地调节分类阈值，指明不确定性，或者是要获得置信区间），或者你希望以后将更多的训练数据

最低0.47元/天解锁文章

JayRoxis

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
常见算法优缺点

常见算法优缺点参考出处： http://blog.csdn.net/boon_228/article/details/51909771 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM
复制链接

扫一扫