分类问题及其表现形式
为什么需要逻辑回归算法
比如要对一个图片进行分类,判断图片里是否包含汽车。包含汽车的预测值为 1 。不包含汽车的预测值为 0 。这种分类问题的值是离散的,如果用 linear regresstion 来作为分类问题的预测函数是不合理的。因为预测出来的数值可能远小于 0 或远大于 1。我们需要找出一个预测函数模型,使其值的输出在 [0, 1] 之间。然后我们选择一个基准值,比如 0.5 ,如果预测值算出来大于 0.5 就认为其预测值为 1,反之则其预测值为 0.
逻辑回归算法的预测函数
我们选择 g(z)=11+e−z 来作为我们的预测函数。这个函数称为 Sigmoid Function 。它的图形如下:
从图中可以看出来,当 z>0 时, g(z)>0.5 。当 z 越来越大时, g(z) 接无限接近于 1。当 z<0 时, g(z)<0.5 。当 z 越来越小时, g(z) 接无限接近于 0。这正是我们想要的针对二元分类算法的预测函数。
结合我们的线性回归函数的预测函数 hθ(x)=θTx ,则我们的逻辑回归模型的预测函数如下:
hθ(x)=g(θTx)=11+e−θTx
解读逻辑回归预测函数的输出值
hθ(x) 表示针对输入值 x 以及参数
hθ(x)=P(y=1|x;θ)
上面的概率公式可以读成:在输入 x 及参数
P(y=1|x;θ)+P(y=0|x;θ)=1
判定边界 Decision Boundary
从逻辑回归公式说起
逻辑回归预测函数由下面两个公式给出的:
hθ(x)=g(θTx)