逻辑回归2.2-吴恩达老师课程
逻辑回归学习算法,该算法适用于二分类问题,本节将主要介绍逻辑回归的Hypothesis Function(假设函数)。
对于二元分类问题来讲,给定一个输入特征向量 X X X,它可能对应一张图片,你想识别这张图片是否是一张带有猫的图片,你想要一个算法能够输出预测,你只能称之为 y ^ \hat{y} y^,也就是你对实际值 y y y的估计。也就是说,你想让 y ^ \hat{y} y^表示 y y y等于1的一种可能性或者是机会,前提条件是给定了输入特征 X X X。换句话来说,如果是我们看到的图片,你想让 y ^ \hat{y} y^来告诉你这是一只猫的图片的机率有多大。 X X X是一个 n x n_x nx维的向量(相当于有 n x n_x nx个特征的特征向量)。我们用 w w w来表示逻辑回归的参数,这也是一个 n x n_x nx维向量(因为实际上是特征权重,维度与特征向量相同),参数里面还有 b b b,这是一个实数(表示偏差)。所以给出输入 x x x以及参数 w w w和 b b b之后,我们怎样产生输出预测值 y ^ \hat{y} y^?你可以尝试使用 y ^ = w T x + b \hat{y}=w^Tx+b y^=wTx+b,但是结果是失败的。
我们得到的是一个关于输入 x x x的线性函数,但是这对于二元分类问题来讲不是一个非常好的算法,因为你想让 y ^ \hat{y} y^表示实际值等于1的机率的话, y ^ \hat{y} y^应该在0到1之间。这是一个需要解决的问题,因为可能比1要大得多,或者甚至为一个负值。对于你想要的在0和1之间的概率来说它是没有意义的,因此在逻辑回归中,我们的输出应该是等于由上面得到的线性函数式子作为自变量的sigmoid函数中,将线性函数转换为非线性函数。
下图是sigmoid函数的图像,如果我把水平轴作为
z
z
z轴,它是平滑地从0走向1,让我在这里标记纵轴,这是0,曲线与纵轴相交的截距是0.5,这就是关于的sigmoid函数的图像。我们通常都使用
z
z
z来表示
w
T
x
+
b
w^Tx+b
wTx+b的值。
关于sigmoid函数的公式是这样的,
σ
(
z
)
=
1
1
+
e
−
z
\sigma(z)={{1} \over {1+e^{-z}}}
σ(z)=1+e−z1,在这里
z
z
z是一个实数,这里要说明一些要注意的事情,如果
z
z
z非常大那么将会接近于0,关于
z
z
z的sigmoid函数将会近似等于1除以1加上某个非常接近于0的项,因为
e
e
e的指数如果是个绝对值很大的负数的话,这项将会接近于0,所以如果
z
z
z很大的话那么关于的sigmoid函数会非常接近1。相反地,如果
z
z
z非常小或者说是一个绝对值很大的负数,那么关于这项会变成一个很大的数,你可以认为这是1除以1加上一个非常非常大的数,所以这个就接近于0。实际上你看到当
z
z
z变成一个绝对值很大的负数,关于的sigmoid函数就会非常接近于0,因此当你实现逻辑回归时,你的工作就是去让机器学习参数
w
w
w以及
b
b
b这样才使得成为对这一情况的概率的一个很好的估计。