线性回归与逻辑回归
一. 首先了解下什么是回归?
回归:指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。回归分析是一种数学模型。
之前在知乎看到关于回归的解释还挺好理解的:
单看这个词,regression. re前缀表示的是恢复(recover),重复(repeat)的意思,sion尾缀把动词变成名词,gress的意思是行走。想象这样一个场景,一堆看似无规律的数据在你的图像上肆无忌惮的乱走,我们要做的是找出其中的规律模型,把他们行走的趋势和轨迹“重新组合起来”。
二. 线性回归和逻辑回归的定义
线性回归:是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为 y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
逻辑回归:又称logistic回归分析,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。
线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归。
三. 具体的不同之处
都说线性回归用来做回归预测,逻辑回归用于做二分类,一个是解决回归问题,一个用于解决分类问题
接下来看下具体不同:
3.对于未知参数使用的函数也不同:
4.两者都是回归,步骤和原理看起来很相似,到底有什么地方不同呢?请看下表。
线性回归 | 逻辑回归 | |
目的 | 预测 | 分类 |
y(i)y(i) | 未知 | {0,1} |
函数 | 拟合函数 | 预测函数 |
参数计算方式 | 最小二乘 | 最大似然估计 |
最大似然估计是计算使得数据出现的可能性最大的参数,而最小二乘是计算误差损失
四.线性回归与逻辑回归的优缺点
1.线性回归
优点:结果易于理解,计算上不复杂
缺点:对非线性数据拟合不好;适用数据类型:数值和标称型数据
算法类型:回归算法
2.逻辑回归
优点:结果易于理解实现简单;分类时计算量非常小,速度快,存储资源低
缺点:容易欠拟合,一般准确度不高;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须是线性可分;适用数据类型:数值型和标称型数据
算法类型:分类算法
参考链接:
https://blog.csdn.net/u010692239/article/details/52345754
https://blog.csdn.net/yunhaitianguang/article/details/43877591
https://www.zhihu.com/question/30123729/answer/46958971
https://blog.csdn.net/lc013/article/details/55002463