θTX,而假如要应用这个预测函数到一个二分类问题,即输入一个X,输出一个Y,Y要么是0,要么是1。这里的0、1表示一个类别的标识,例如1可能表示这个输入的X是一本书,0表示输入的不是一本书。此时会发现线性回归的预测函数Y=θTX已经不适用了,因为得到的Y的值并不是非零即一,既可能小于零,也可以大于一。对线性回归的预测函数稍作变化得到:
做如上变化后,Y的取值范围就被限定在[0,1]上了,该式便是逻辑回归的预测函数,因此对线性回归稍作修改,便得到了逻辑回归。从预测函数可以看出虽然逻辑回归用来解决分类问题,但它的预测值其实并不是0、1的离散值,而是[0,1]的连续值,因此可以将预测值Y理解为X属于某一类的概率。即P(Y=1|X;θ)=hθ(X)。
我们先不讨论得到的预测函数的合理性,先假设上述式子是合理的,并由此得到二分类问题的解决方案。由于Y只能取0或1,因此P(Y=0|X;θ)=1-hθ(X)。由此可得到Y的概率分布函数:P(y|x;θ)=hθ(x)y(1-hθ(x))1-y,y等于0或1。因此现在的问题转化为,我们有一些样本,(X(i),Y(i)),即对这些X,我们知道它们对应的Y值是0还是1。同时我们还知道Y的概率分布函数,现在需要确定参数θ。因此可以使用极大似然估计得到θ的值。
利用极大似然估计得到的目标函数为:
因此求使上述函数最大的θ即可,可利用梯度上升法求解,与梯度下降法类似,只是每次向梯度方向迭代。也可利用牛顿法求解,一般牛顿法会有更快的收敛速度。牛顿法用来解决如下问题f(x)=0,求x的值。利用泰勒公式将f(x)在x0处一次展开,得到f(x)=f(x0)+(x-x0)f’(x0),令f(x)=0,解得