本视频给出在对数几率回归使用这个成本函数的理由。
在之前的对数几率回归中,预测
y
^
=
σ
(
ω
T
x
+
b
)
,
\hat y=\sigma(\omega^Tx+b),
y^=σ(ωTx+b),
其中,
σ
(
z
)
=
1
1
+
e
−
z
\sigma(z)=\frac 1 {1+e^{-z}}
σ(z)=1+e−z1 。
作者对此的解释是:
y
^
=
P
(
y
=
1
∣
x
)
\hat y=P(y=1|x)
y^=P(y=1∣x) 。 即对于给定的一组输入的特征量
x
x
x ,其对应的
y
=
1
y=1
y=1 的机会。
另一种说法是,如果
y
=
1
y=1
y=1 ,那么
P
(
y
∣
x
)
=
y
^
P(y|x)=\hat y
P(y∣x)=y^ 。
反之,如果如果
y
=
1
y=1
y=1 ,那么
P
(
y
∣
x
)
=
1
−
y
^
P(y|x)=1-\hat y
P(y∣x)=1−y^ 。
所以综合考虑这两种情况,
P
(
y
∣
x
)
=
y
^
y
(
1
−
y
^
)
1
−
y
P(y|x)=\hat y^y(1-\hat y)^{1-y}
P(y∣x)=y^y(1−y^)1−y 。
因为
log
\log
log 函数是单调递增的,对
P
(
y
∣
x
)
P(y|x)
P(y∣x) 取对数,得到
log
P
(
y
∣
x
)
=
y
log
y
^
+
(
1
−
y
)
log
(
1
−
y
^
)
=
−
L
(
y
,
y
^
)
,
\log P(y|x)=y\log\hat y+(1-y)\log(1-\hat y)=-L(y,\hat y),
logP(y∣x)=ylogy^+(1−y)log(1−y^)=−L(y,y^),这是单个样本的成本函数。
至于在
M
M
M 个样本上的整体的损失函数,如果假设训练实例独立抽取或独立同分布(IID),那么,
P
(
t
r
a
i
n
i
n
g
)
=
Π
i
=
1
n
P
(
y
(
i
)
∣
x
(
i
)
)
.
P(training)=\Pi_{i=1}^nP(y^{(i)}|x^{(i)}).
P(training)=Πi=1nP(y(i)∣x(i)).
所以,如果你想进行最大似然估计,那么最大化
P
(
t
r
a
i
n
i
n
g
)
P(training)
P(training) 与最大化它的对数是等同的。即最大化以下式子:
log
P
(
t
r
a
i
n
i
n
g
)
=
∑
i
=
1
n
log
P
(
y
(
i
)
∣
x
(
i
)
)
=
−
∑
i
=
1
n
−
L
(
y
(
i
)
,
y
^
(
i
)
)
.
\log P(training)=\sum_{i=1}^n\log P(y^{(i)}|x^{(i)})=-\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}).
logP(training)=i=1∑nlogP(y(i)∣x(i))=−i=1∑n−L(y(i),y^(i)).
统计学中有一个被称为“极大似然估计”的原理,它选择能够最大化
log
P
(
t
r
a
i
n
i
n
g
)
\log P(training)
logP(training) 的参数。
对数几率回归要最小化的的代价函数
J
(
ω
,
b
)
=
1
N
∑
i
=
1
n
−
L
(
y
(
i
)
,
y
^
(
i
)
)
J(\omega,b)=\frac 1 N\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)})
J(ω,b)=N1∑i=1n−L(y(i),y^(i)) 就相当于在各个样本被独立同分布(IID)抽取情况下概率的极大似然估计。