数据挖掘经常用的分类算法

最新推荐文章于 2024-04-11 08:28:09 发布

足下之臣

最新推荐文章于 2024-04-11 08:28:09 发布

阅读量722

点赞数 1

本文链接：https://blog.csdn.net/qq_43893567/article/details/88965380

版权

逻辑回归，决策树，svm，k近邻，朴素贝叶斯，基于神经网络的cnn

逻辑回归：概念：逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的
代价：逻辑回归的对数形式
优点：1）适合需要得到一个分类概率的场景。2）计算代价不高，容易理解实现。LR在时间和内存需求上相当高效。它可以应用· 于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。3）LR对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

		    缺点：1）容易欠拟合，分类精度不高。    2）数据特征有缺失或者特征空间很大时表现效果并不好

与SVM比较
线性回归做分类因为考虑了所有样本点到分类决策面的距离，所以在两类数据分布不均匀的时候将导致误差非常大；LR和SVM克服了这个缺点，其中LR将所有数据采用sigmod函数进行了非线性映射，使得远离分类决策面的数据作用减弱；SVM直接去掉了远离分类决策面的数据，只考虑支持向量的影响。

但是对于这两种算法来说，在线性分类情况下，如果异常点较多无法剔除的话，LR中每个样本都是有贡献的，最大似然后会自动压制异常的贡献；SVM+软间隔

最低0.47元/天解锁文章

足下之臣

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘经常用的分类算法

逻辑回归，决策树，svm，k近邻，朴素贝叶斯，基于神经网络的cnn逻辑回归：概念：逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的代价：优点：形式简单，可解释性强。训练速度快，可采用分布式计算，资源也就是内存占用小，方便输出结果调整缺点：准确率低，形式简单很难拟合真实分布；很难处理数据不平衡问题；处理非线性数据麻烦；逻辑回归不能筛选...
复制链接

扫一扫