在线性回归问题中,样本的变量y的取值是连续值,若是其变为若干表示类别的离散值,那么就成了一个分类问题,其中最基本的就是二分类问题,这类问题中,样本的类别只有两类,分别用0和1表示,即y∈{0, 1}。这时需要对线性回归中的h_θ(x)=θx进行修改,令
h_θ(x)=g(θx)1/(1+exp{-θx})
其中g(z)=1/(1+exp{-z})成为logistic函数或sigmoid函数,该函数可以将z映射到(0,1)区间上,函数的导数为
g'(z)=g(z)(1-g(z)),这点在下面会用到。
对于新的h_θ(x)的一个解释是,该函数被用来计算针对θx的值,y值取1的概率大小。这样,我们可以得到如下两个关于y取值概率的式子
p(y=1|x; θ)=h_θ(x)
p(y=0|x; θ)=1-h_θ(x)
将这两个式子合并得到
为了计算合适的θ的取值,使用和线性回归中一样的似然估计,对于已有的m个样本θ的似然函数为
为了求得使似然函数最大的θ的值,采用梯度上升法,注意因为这里是要令目标函数取得最大值,所以是梯度上升,而非线性回归中使用的梯度下降。为了计算方便,先对L(θ)去对数,然后求其关于θ_j的偏导数。
由此可以最后得到梯度上升公式应为