LR(Logistic Regression)
理论基础
Logistic分布
分布函数,对数几率
其实,LR就是一个线性分类的模型,与线性回归不同的是:LR将线性方程输出的很大范围的数压缩到了[0,1]区间上。即:LR就是一个被logistic方程归一化后的线性回归。
LR参数求解过程
极大似然估计
1.在这里,最大化对数似然函数与最小化对数似然损失函数其实是等价的;
2.对于每一个样本出现概率可得,此时似然函数即为n个样本概率的积(此时假设每个样本是独立的),取对数,求偏导,得到的式子无法解析求解,需用最优化方法,这里使用“梯度下降法”
常见问题
1.与其他模型的比较
与Linear Regression的区别:线性回归在整个实数域敏感度一致,逻辑回归在z=0时十分敏感,在z>>0或z<<0处都不敏感
LR与SVM比较:
相同点:
- 若不考虑核函数,LR与SVM都是线性分类算法,分类决策面都是线性的,这里要说明LR也是可以使用核函数的,但通常会在SVM使用但不在LR使用
- LR和SVM都是判别模型
- 在工业界和学术界都广为人知且应用广泛
不同点:
- 本质上是loss function不同,不同的loss function代表了不同的假设前提。LR基于概率理论,假设样本为1的概率可以用sigmoid函数来表示;SVM基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。
- SVM只考虑局部的边界线附近的点,而LR考虑全局(远离的点对边界线的确定也起作用,虽然作用会相对小一些),因此,线性SVM不直接依赖与数据分布,分裂平面不受一类点影响;LR则受所有数据点的影响,如果数据不同类别严重不平衡,一般需要先对数据做balancing,
- 在解决非线性问题时,SVM采用核函数的机制,LR不是。SVM只有少数几个样本需要参与核计算(即kernal machiine解的系数是稀疏的),LR若使用核函数,则每个样本点都必须参与核计算,计算复杂度过高。
- 线性SVM(基于距离)依赖数据表达的距离测度,所以需要对数据先做normalization,LR(基于概率)不受影响
- SVM的损失函数自带正则,所以SVM是结构风险最小化;LR必须另外在损失函数上添加正则项