1. 为什么不选用线性回归
线性回归并不适用于定性预测值的预测
即使在二元分类中利用哑变量对类别编码,其预测的值也会不落在[0,1],这样就很难利用概率的方式来解释
2.逻辑回归
逻辑回归对目标值属于某个类别建模
P(Y=C|X1,X2...Xn)
如何对 p(X)=Pr(Y=c|X) 建模?
在线性回归的基础上引入逻辑函数,将预测值限制在(0,1)之间
p(X)=eβ0+β1X1+eβ0+β1X
利用 最大似然方法拟合该模型
odds: p(x)1−p(x)=eβ0+β1X
log-odds:
log(p(x)1−p(x))=β0+β1X
经过简单的数学变化,可以获得odds和log-odds,odd反应了属于c类的可能性,log-odds反应了逻辑回归模型和线性回归模型的关系,虽然log-odds和X不是线性增长的关系,但X增加和log-odds也呈现了正相关。
3.参数估计
同线性回归模型一样,逻辑回归模型中 β0 和 β1 并不可知,需要通过训练集来模拟,在线性回归中采用了最小二乘法来拟合数据,但逻辑回归通常采用最大似然估计
4.多元逻辑回归
log(p(x)1−p(x))=β0+β1X1+...+βnXp
注意分析特征之间的相关性
5.多类别逻辑回归
例如当数据可以划分为
c1;c2;c3;
。我们希望对
Pr(Y=c1|X);Pr(Y=c2|X)
同时保证
Pr(Y=c3|X)=1−Pr(Y=c1|X)−Pr(Y=c2|X)
多类别的逻辑回归效果并不好,线性判别分析是更为流行的多类别分类问题
逻辑回归方法是线性回归模型的拓展,参数式的学习方法更容易理解和解释,逻辑回归适用于二类分类,容易实现和解释。