对于逻辑回归来说,输出
y
∈
{
0
,
1
}
~ y \in\{0,1\}
y∈{0,1}
逻辑回归的sigmoid输出大小为预测1的概率。则有
P
(
y
=
1
∣
x
,
θ
)
=
h
θ
(
x
)
P(y=1|x,\theta)=h_\theta(x)
P(y=1∣x,θ)=hθ(x)
P
(
y
=
0
∣
x
,
θ
)
=
1
−
h
θ
(
x
)
P(y=0|x,\theta)=1-h_\theta(x)
P(y=0∣x,θ)=1−hθ(x)
根据似然估计可得,样本数为
m
m
m
L
(
θ
)
=
∏
i
=
1
m
h
θ
(
x
(
i
)
)
y
(
i
)
(
1
−
h
θ
(
x
(
i
)
)
)
1
−
y
(
i
)
L(\theta)=\prod_{i=1}^{m}{h_\theta(x^{(i)})}^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}
L(θ)=∏i=1mhθ(x(i))y(i)(1−hθ(x(i)))1−y(i)
J
(
θ
)
=
−
L
n
(
L
(
θ
)
)
J(\theta)=-Ln(L(\theta))
J(θ)=−Ln(L(θ)), 化简后可以当作交叉熵形式看。
对于线性回归,损失函数定义为均方差。
对两种回归的
J
(
θ
)
J(\theta)
J(θ)求导后可以发现梯度大小是相同的,都是
∂
J
(
θ
)
∂
θ
=
X
T
(
h
θ
(
x
)
−
Y
)
\frac{\partial J(\theta)}{\partial \theta}=X^T(h_\theta(x)-Y)
∂θ∂J(θ)=XT(hθ(x)−Y)