浅论lr和svm建模思想的不同

最新推荐文章于 2022-02-07 04:03:40 发布

tomlvyihua1

最新推荐文章于 2022-02-07 04:03:40 发布

阅读量867

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/tomlvyihua1/article/details/52796103

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

同样是线性分类器，lr和svm分别基于什么样的准则和思想去建模的呢。可以从两者的损失函数入手分析：

任何线性分类器的目标都是在空间中找到一个超平面，尽可能的让正负例分列超平面的两边。

svm的损失函数是hinge loss，即样本到超平面的函数间隔（基本等价于几何间隔）在1以外的样本点损失值为0，间隔在1以内的样本点越靠近间隔1损失越小，说明svm更care分类超平面间隔为1范围内的样本分类正确与否，产生损失值的样本点位于分类平面两边很窄范围内，模型要优化的样本点就是这些样本点。

而lr的损失函数是log损失函数: - （log yh（x）+（1-y）log(1-h(x) ) ) (对log 似然的求负，为损失)，h(x)是样本点与超平面的距离(wx+b)经过lsigmoid映射后的概率值，距离越远，属于这一侧类的概率值越大，log似然越大，则整体损失越小，因为经过了sigmoidt映射，远到一定程度后的样本log似然值都比较大，且与更远距离的样本似然值差别不大，或者说在一定间距外的样本产生的似然值差不多且都比较大。那么为了使总体损失小，lr选择的分类超平面应尽量使离平面较远的点越多，更关注的是离分类平面一定距离外的样本。即让处于超平面一定距离外的样本越多越好。

分析了两种模型的侧重，对于如下图1的样本集，可以想见两种模型的分类面大概位置。可能有人会说这个图有问题，因为如果样本集是线性可分的，lr的分类面怎么会有分不对的样本呢，其实我也有这个疑问，svm能保证在样本集线性可分的时候，训练出的平面也一定能将样本集完全分开，但是lr能么，不一定吧，除非可以在lr的损失值最大化前提下用数学证明，选择一条完全线性可分的平面一定优于其它任何线性不可分的平面。希望有大牛可以解答下。