@(机器学习)[回归]
#logistic回归
在**《机器学习之线性回归模型》一章中,我们学习了如何使用线性模型进行回归学习。如果要将线性模型用来分类,就要用到该章结尾介绍的广义线性模型了。
logistic回归模型采用logistic函数来将线性回归产生的预测值
z
=
w
T
x
+
b
z=\boldsymbol{w}^T\boldsymbol{x}+b
z=wTx+b转化为一个接近0或1的
y
y
y值;
y
=
1
1
+
e
−
z
(1)
y=\frac{1}{1+e^{-z}} \tag{1}
y=1+e−z1(1)
由此得到logistic回归模型:
y
=
1
1
+
e
−
(
w
T
x
+
b
)
(2)
y=\frac{1}{1+e^{-(\boldsymbol{w}^T\boldsymbol{x}+b)}} \tag{2}
y=1+e−(wTx+b)1(2)
假设我们的训练集是由
m
m
m个已标记的样本构成:
{
(
x
(
1
)
,
y
(
1
)
)
,
⋯
,
(
x
(
m
)
,
y
(
m
)
)
,
}
\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)}),\}
{(x(1),y(1)),⋯,(x(m),y(m)),},输入特征向量
x
(
i
)
∈
R
n
+
1
\boldsymbol{x}^{(i)}\in \mathbb{R}^{n+1}
x(i)∈Rn+1。(我们约定其中
x
0
=
1
对
应
截
距
项
x_0=1对应截距项
x0=1对应截距项)。
我们将用于分类的函数称为假设函数**(hypothesis function),logistic回归中的假设函数为:
h
θ
=
1
1
+
e
(
−
θ
T
x
)
(3)
h_\theta=\frac{1}{1+e^{(-\theta^Tx)}} \tag{3}
hθ=1+e(−θTx)1(3)
注意,
(
3
)
(3)
(3)中的
θ
\theta
θ等价于
[
w
;
b
]
[w;b]
[w;b]。
我们可以通过“极大似然法”(maximum likelihood method)来估计
θ
\theta
θ。不妨设:
P
(
y
=
1
∣
x
;
θ
)
=
h
θ
(
x
)
P
(
y
=
0
∣
x
;
θ
)
=
1
−
h
θ
(
x
)
(4)
\begin{aligned} P(y=1|x;\theta) &=h_\theta(x) \\ P(y=0|x;\theta) &=1-h_\theta(x) \\ \tag{4} \end{aligned}
P(y=1∣x;θ)P(y=0∣x;θ)=hθ(x)=1−hθ(x)(4)
那么有
P
(
y
∣
x
;
θ
)
=
(
h
θ
(
x
)
)
y
(
1
−
h
θ
(
x
)
)
1
−
y
(5)
P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y} \tag{5}
P(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y(5)
似然函数为:
L
(
θ
)
=
P
(
Y
∣
X
;
θ
)
=
∏
i
=
1
m
P
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
∏
i
=
1
m
(
h
θ
(
x
(
i
)
)
)
y
(
i
)
(
1
−
h
θ
(
x
(
i
)
)
)
1
−
y
(
i
)
(6)
\begin{aligned} L(\theta) &=P(\boldsymbol{Y}|\boldsymbol{X};\theta) \\ &=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta) \\ &=\prod_{i=1}^{m}(h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}\\ \tag{6} \end{aligned}
L(θ)=P(Y∣X;θ)=i=1∏mP(y(i)∣x(i);θ)=i=1∏m(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)(6)
对数似然函数为:
l
(
θ
)
=
log
L
(
θ
)
=
∑
i
=
1
m
y
(
i
)
log
h
θ
(
x
(
i
)
)
+
(
1
−
y
(
i
)
)
log
(
1
−
h
θ
(
x
(
i
)
)
)
(7)
\begin{aligned} l(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)}))\\ \tag{7} \end{aligned}
l(θ)=logL(θ)=i=1∑my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))(7)
我们将训练模型参数
θ
\theta
θ使其能够最小化代价函数:
J
(
θ
)
=
−
1
m
[
∑
i
=
1
m
y
(
i
)
log
h
θ
(
x
(
i
)
)
+
(
1
−
y
(
i
)
)
log
(
1
−
h
θ
(
x
(
i
)
)
)
]
(8)
J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)}))\right] \tag{8}
J(θ)=−m1[i=1∑my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))](8)
机器学习之logistic回归
于 2017-06-28 00:30:12 首次发布