逻辑回归 vs 决策树 vs 支持向量机

最新推荐文章于 2021-11-02 10:55:03 发布

2h4n9y1m1n9

最新推荐文章于 2021-11-02 10:55:03 发布

阅读量532

点赞数

分类专栏： machine learning

machine learning 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

逻辑回归

逻辑回归非常便利并且很有用的一点就是，它输出的结果并不是一个离散值或者确切的类别。相反，你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数，并得到一个阈值，然后使用最符合你业务问题的方式进行分类输出。

逻辑回归的优点：

便利的观测样本概率分数；
已有工具的高效实现；
对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；
逻辑回归广泛的应用于工业问题上（这一点很重要）。

逻辑回归的缺点：

当特征空间很大时，逻辑回归的性能不是很好；
不能很好地处理大量多类特征或变量；
对于非线性特征，需要进行转换；
依赖于全部的数据（个人觉得这并不是一个很严重的缺点）

决策树

决策树固有的特性是它对单向变换或非线性特征并不关心[这不同于预测器当中的非线性相关性>，因为它们简单地在特征空间中插入矩形[或是（超）长方体]，这些形状可以适应任何单调变换。当决策树被设计用来处理预测器的离散数据或是类别时，任何数量的分类变量对决策树来说都不是真正的问题。使用决策树训练得到的模型相当直观，在业务上也非常容易解释。决策树并不是以概率分数作为直接结果，但是你可以使用类概率反过来分配给终端节点。这也就让我们看到了与决策树相关的最大问题，即它们属于高度偏见型模型。你可以在训练集上构建决策树模型，而且其在训练集上的结果可能优于其它算法，但你的测试集最终会证明它是一个差的预测器。你必须对树进行剪枝，同时结合交叉验证才能得到一个没有过拟合的决策树模型。

随机森林在很大程度上克服了过拟合这一缺陷，其本身并没有什么特别之处，但它却是决策树一个非常优秀的扩展。随机森林同时也剥夺了商业规则的易解释性，因为现在你有上千棵这样的树，而且它们使用的多数投票规则会使得模型变得更加复杂。同时，决策树变量之间也存在相互作用，如果你的大多数变量之间没有相互作用关系或者非常弱，那么会使得结果非常低效。此外，这种设计也使得它们更不易受多重共线性的影响。

决策树的优点：

直观的决策规则
可以处理非线性特征
考虑了变量之间的相互作用

决策树的缺点：

训练集上的效果高度优于测试集，即过拟合[随机森林克服了此缺点]
没有将排名分数作为直接结果

SVM：

SVM的优点：

能够处理大型特征空间
能够处理非线性特征之间的相互作用
无需依赖整个数据

SVM的缺点：

当观测样本很多时，效率并不是很高
有时候很难找到一个合适的核函数

我试着编写一个简单的工作流，决定应该何时选择这三种算法，流程如下：

首当其冲应该选择的就是逻辑回归，如果它的效果不怎么样，那么可以将它的结果作为基准来参考；
然后试试决策树（随机森林）是否可以大幅度提升模型性能。即使你并没有把它当做最终模型，你也可以使用随机森林来移除噪声变量；
如果特征的数量和观测样本特别多，那么当资源和时间充足时，使用SVM不失为一种选择。

2h4n9y1m1n9

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归 vs 决策树 vs 支持向量机

逻辑回归逻辑回归非常便利并且很有用的一点就是，它输出的结果并不是一个离散值或者确切的类别。相反，你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数，并得到一个阈值，然后使用最符合你业务问题的方式进行分类输出。逻辑回归的优点：便利的观测样本概率分数；已有工具的高效实现；对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解...
复制链接

扫一扫

专栏目录