1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归
在这个视频中,我们将回顾逻辑回归。当监督学习问题中输出标签Y全部为0或1时,这是一种学习算法。
所以对于二元分类问题。给定一个输入特征向量
x
x
(可能对应于您想要识别为猫图片或不是猫图片的图片),您需要一种可输出预测的算法,我们将其称为,它是您对
y
y
的估计。
更正式地说,也就是是给定输入特征
x
x
的条件下,等于1的概率。
换句话说,如果X是一张图片,你希望
y^
y
^
告诉你,这是图片有多大概率是猫?
因此,正如我们在前面的视频中所说的, x∈Rnx x ∈ R n x 是一个 nx n x 维矢量。对数几率回归的参数 W∈Rnx W ∈ R n x 也是 nx n x 维矢量, b∈R b ∈ R 是一个实数。所以给定 x∈Rnx,W∈Rnx,b∈R x ∈ R n x , W ∈ R n x , b ∈ R ,我们如何得到 y^ y ^ ?
那么,有一件事你可以试试,但是不会有用,那就是让
y^=WTx+b
y
^
=
W
T
x
+
b
,是输入
x∈Rnx
x
∈
R
n
x
的线性函数。
事实上,这就是线性回归。
但是这对二分类问题并不是一个很好的算法,因为你希望
y^
y
^
是
y
y
等于1的几率,所以应该在0到1之间。
这用线性回归很难做,因为
WTx+b
W
T
x
+
b
可能比1更大,或者它甚至可能是负的,这对概率是没有意义的。
因此,在逻辑回归中,我们的输出将是 y^ y ^ 等于 WTx+b W T x + b 的sigmoid函数,即 y^=σ(WTx+b) y ^ = σ ( W T x + b ) , σ σ 表示sigmoid函数。
如果在水平轴上我绘制
z=WTx+b
z
=
W
T
x
+
b
,那么z的sigmoid函数看起来像这样:
它从0到1平稳地变化。这是0,然后函数又穿过了纵轴上的0.5,这就是Z的sigmoid函数。
这里是sigmoid函数的公式
σ(z)=1e−z+1
σ
(
z
)
=
1
e
−
z
+
1
。如果
z
z
非常大,那么趋于零。
σ(z)
σ
(
z
)
接近1。
相反,如果
z
z
非常小,或者它是一个非常大的负数,接近于零。
所以当你实现对数几率回归时,你的工作是试着学习参数 W W 和,这样 y^ y ^ 可以很好的估计 y y 等于1的几率。
在继续之前,关于符号我们想要做一些注解。
当我们编程时,我们通常将参数和参数
b
b
分开写。在其他地方,您可能会看到一种处理方式不同的符号。
在一些惯例中,您定义了一个名为的额外特征,此时
x∈Rnx+1
x
∈
R
n
x
+
1
,
y^=σ(θTx)
y
^
=
σ
(
θ
T
x
)
,
θ1,...,θn=W
θ
1
,
.
.
.
,
θ
n
=
W
,
θ0=b
θ
0
=
b
;
事实证明,当你实现你的神经网络时,将B和W保持为独立的参数会更容易。所以,在这个班级中,我们不会使用我刚刚用红色写的任何符号约定。
如果您以前在其他课程中没有看到过这个符号,请不要担心。对于那些已经看到这种表示法的人来说,我只是想明确提到我们在本课程中没有使用这种表示法。但如果你以前没有见过这个,这不重要,你不需要担心。
所以你现在已经看到了逻辑回归模型的样子。接下来要训练参数
W
W
和,您需要定义一个cost function。
我们在下一节课中做这个。