前面介绍了输入与输出皆为连续值的线性回归,现在介绍一个用于分类的广义线性回归—逻辑回归,将线性回归的结果作为一个联系函数的输入,选择合适的联系函数便可很好的实现分类的目的。
线性回归中回归的目标是使得回归值接近我们的标签,如果我们想让回归的目标为标签的衍生物呢?如对数线性回归
l
n
y
=
w
T
x
+
b
lny=w^Tx+b
lny=wTx+b。此时实际上是让
e
w
T
x
+
b
e^{w^Tx+b}
ewTx+b逼近
y
y
y,是在求取输入空间到输出空间的非线性函数映射,将线性回归的预测值通过联系函数与真实的预测值联系在了一起。同理,如果此时我们的真实预测值是一个二值结果{0,1},通过何种联系函数能将线性回归的预测值变为二值结果呢?Sigmoid函数便是很理想的一个函数,连续且可微,值域为
(
0
,
1
)
(0,1)
(0,1),将Sigmoid作为联系函数后的结果与0.5进行大小比较便可得到一个二值的结果。
将Sigmoid函数作为联系函数后:
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y=\frac{1}{1+e^{-(w^Tx+b)}}
y=1+e−(wTx+b)1
有
l
n
y
1
−
y
=
w
T
x
+
b
ln\frac{y}{1-y}=w^Tx+b
ln1−yy=wTx+b
将
y
y
y视为类的后验概率估计
p
(
y
=
1
∣
x
)
p(y=1|x)
p(y=1∣x)则有:
l
n
p
(
y
=
1
∣
x
)
p
(
x
=
0
∣
x
)
=
w
T
x
+
b
ln\frac{p(y=1|x)}{p(x=0|x)}=w^Tx+b
lnp(x=0∣x)p(y=1∣x)=wTx+b
进一步有:
p
1
=
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
,
p_1=p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}},
p1=p(y=1∣x)=1+ewTx+bewTx+b,
p
0
=
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
p_0=p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}
p0=p(y=0∣x)=1+ewTx+b1
构建使每个样本属于其真实标记的概率最大的似然函数:
p
(
y
i
∣
x
i
;
w
,
b
)
=
y
i
p
1
+
y
i
p
0
p(y_i|x_i;w,b)=y_ip_1+y_ip_0
p(yi∣xi;w,b)=yip1+yip0
最大化似然函数相当于最小化
l
(
β
)
=
∑
i
=
1
m
(
−
y
i
β
T
x
i
^
+
l
n
(
1
+
e
β
T
x
i
^
)
)
l(\beta)=\sum_{i=1}^{m}(-y_i{\beta}^T\hat{x_i}+ln(1+e^{{\beta}^T{\hat{x_i}}}))
l(β)=∑i=1m(−yiβTxi^+ln(1+eβTxi^))其中
β
=
(
w
,
b
)
,
x
^
=
(
x
;
1
)
\beta=(w,b),\hat{x}=(x;1)
β=(w,b),x^=(x;1)。
l
(
β
)
l(\beta)
l(β)为高阶可导连续凸函数可以使用梯度下降和牛顿法求解。
算法梳理之逻辑回归
最新推荐文章于 2022-05-20 18:30:11 发布