版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
逻辑回归与线性回归都属于广义线性回归模型,其区别与联系从以下几个方面比较:
分类与回归
:回归模型就是预测一个连续变量(如降水量,价格等)。在分类问题中,预测属于某类的概率,可以看成回归问题。这可以说是使用回归算法的分类方法。输出
:直接使用线性回归的输出作为概率是有问题的,因为其值有可能小于0或者大于1,这是不符合实际情况的,逻辑回归的输出正是[0,1]区间。见下图,参数估计方法
:
- 线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重。这样做会有什么问题呢?假如使用线性回归对{0,1}二分类问题做预测,则一个真值为1的样本,其预测值为50,那么将会对其产生很大的惩罚,这也和实际情况不符合,更大的预测值说明为1的可能性越大,而不应该惩罚的越严重。
- 逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数,这就不存在上述问题了1
也正是因为使用的参数估计的方法不同,线性回归模型更容易受到异常值(outlier)的影响,有可能需要不断变换阈值(threshold),线性回归分类的情况见下面两图:
无异常值的线性回归情况:
有异常值的线性回归情况:
这个时候再想有好的预测效果需调整阈值为0.2,才能准确预测。- 使用逻辑回归的方法进行分类,就明显对异常值有较好的稳定性。如下图:
参数解释
:
- 线性回归中,独立变量的系数解释十分明了,就是保持其他变量不变时,改变单个变量因变量的改变量。
- 逻辑回归中,自变量系数的解释就要视情况而定了,要看选用的概率分布是什么,如二项式分布,泊松分布等
refer
[1] https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression
[2] https://gerardnico.com/data_mining/simple_logistic_regression
[3] https://stats.stackexchange.com/questions/22381/why-not-approach-classification-through-regression