logistic回归名为“回归”,实质上却是一个分类模型。
它的思路是用一个S型函数进行回归模型拟合,预测值大于0.5时认为是正类,小于0.5时认为是负类。
用logistic回归用于分类而不采取线性回归的原因在于,当两个类的样本较多分布不同的时候,线性回归会倾向于偏向样本较多的那个类,并尝试拟合“较远”的样本。
logistic回归选择将线性回归函数转化到一个S型函数上。
hθ(x)=g(θTx)=11+e−θTx
其中 g(z)=11+e−z .
logistic回归如下:
设样本类别分布为
P(y|x;θ)=hθ(x)y(1−hθ(x))1−y
则似然函数
L(θ)=∏iP(y(i)|x(i);θ)=∏ihθ(x(i))y(i)(1−hθ(x(i)))1−y(i)
对数似然函数
logL(θ)=∑imy(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))
为寻找 θ 使似然函数最大,使用梯度下降法,
θ:=θ+α∇θlogL(θ)
由于
hθ(x)=g(θTx)=11+e−θTx
可得
∂∂θjlogL(θ)=∑im(y(i)−hθ(x(i)))x(i)j
因此求解logistic回归的参数迭代式为:
θj:=θj+α∑im(y(i)−hθ(x(i)))x(i)j
当然也可以采取循环的形式,即对所有 i 采取:
其中
hθ(x)=g(θTx)=11+e−θTx