SVM和Logistic回归之间的区别

最新推荐文章于 2020-06-04 10:58:53 发布

你今天机器学习了么

最新推荐文章于 2020-06-04 10:58:53 发布

阅读量1k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/None_Pan/article/details/105942848

版权

SVM和Logistic回归之间的区别
SVM试图找到分隔类别的“最佳”边距（线与支撑向量之间的距离），这降低了数据出错的风险，而逻辑回归则没有，相反，它可以具有不同的权重而具有不同的决策边界即使在最佳点附近。

SVM可以很好地处理非结构化和半结构化数据（例如文本和图像），而逻辑回归可以使用已经确定的自变量。
SVM基于数据的几何特性，而逻辑回归基于统计方法。
在SVM中，过度拟合的风险较小，而Logistic回归很容易过度拟合。

何时使用Logistic回归与支持向量机
根据您拥有的训练集（数据）/功能的数量，您可以选择使用逻辑回归或支持向量机。
让我们以这些为例：
n =功能数量，
m =训练示例数
1.如果n大（1–10,000），而m小（10–1000）：请使用逻辑回归或线性核的SVM。
2.如果n小（1–10 00）并且m在中间（10–10,000）：将SVM与（高斯，多项式等）内核一起使用
3.如果n小（1–10 00），m大（50,000–1,000,000 +）：首先，手动添加更多特征，然后逻辑回归或SVM加上线性核
通常，通常建议首先尝试使用逻辑回归来查看模型的工作方式，如果模型失败，则可以尝试使用没有内核的SVM（否则称为带有线性内核的SVM）。 Logistic回归和具有线性核的SVM具有相似的性能，但是取决于您的功能，一个可能比另一个更有效。

其次
LR给出了校准概率，可以将其解释为决策的置信度。
LR为我们提供了一个不受限制的，平滑的目标。
可以在贝叶斯模型中直接使用LR。
SVM具有很好的双重形式，使用内核技巧时可提供稀疏的解决方案（更好的可伸缩性）

Logistic回归假设预测变量不足以确定响应变量，而是确定概率作为它们线性组合的逻辑函数。如果噪音很大，逻辑回归是一项很棒的技术。

另一方面，存在一些问题，其中您有成千上万的维度，而预测变量几乎可以肯定地确定响应，但是以某种难以解释的编程方式进行。一个例子是图像识别。如果您有100 x 100像素的灰度图像，则已经有10,000个尺寸。通过各种基础转换（内核技巧），您将能够获得数据的线性分隔符。

当存在一个分离的超平面时，非正则逻辑回归技术不能很好地工作（实际上，拟合系数会发散），因为通过任何分离的平面都可以获得最大的可能性，并且不能保证会得到最好的。您得到的是一个非常有信心的模型，在边际附近的预测能力很差。

SVM为您提供最佳的分离超平面，它们在高维空间中效率很高。它们与正则化在试图找到将数据分开的最低范数矢量方面相似，但其边距条件有利于选择良好的超平面。硬边界的SVM将找到一个将所有数据分隔开的超平面（如果存在），如果没有则失败。当数据中存在噪声时，软边距SVM（通常首选）效果更好。

此外，SVM仅考虑边缘附近的点（支持向量）。 Logistic回归考虑了数据集中的所有点。

逻辑回归在较小的维度上非常有用，并且当预测变量不足以给出响应的概率估计时。当维数较大时，SVM的效果更好，尤其是在预测变量确实（或几乎确定）确定响应的问题上。