线性回归到线性分类
线性回归: y = w T x + b y=w^{T}x+b y=wTx+b,得到结果是一个属于 ( − ∞ , + ∞ ) (-\infty,+\infty) (−∞,+∞)的实数,线性分类问题则需要映射 w T x + b w^{T}x+b wTx+b到类别的编码上,分类问题有硬分类和软分类两种情况,假设有一个二分类问题:
- 硬分类,映射结果是二值集合{ 0 , 1 0,1 0,1}中的值;
- 软分类,映射结果是 [ 0 , 1 ] [0,1] [0,1]区间上的值,相比硬分类,软分类取到的是概率值,哪个类别的概率大,就认为是哪一类;
软分类的线性分类模型一般有三种:逻辑回归,高斯判别分析,朴素贝叶斯分类器;
软分类模型又可以分为判别式模型和生成式模型,逻辑回归属于判别式模型,直接对条件概率 p ( Y ∣ X ) p(Y|X) p(Y∣X)建模;高斯判别分析和朴素贝叶斯是生成式模型,对联合概率 p ( X , Y ) p(X,Y) p(X,Y)进行建模;
逻辑回归建模
以二分类问题为例,在逻辑回归中,所关注的是给定一个样本 x x x,计算 p ( y = 1 ∣ x ) p(y=1|x) p(y=1∣x)的概率,通常会利用sigmoid函数对 w T x w^{T}x wTx进行非线性映射,映射到 [ 0 , 1 ] [0,1] [0,1]之间的概率值;
逻辑回归的二分类条件概率表达式为:
p
1
=
p
(
y
=
1
∣
x
)
=
σ
(
w
T
x
)
=
1
1
+
e
−
w
T
x
=
φ
(
x
,
w
)
p_{1}=p(y=1|x)=\sigma(w^{T}x)=\frac{1}{1+e^{-w^{T}x}}=\varphi(x,w)
p1=p(y=1∣x)=σ(wTx)=1+e−wTx1=φ(x,w)
p
0
=
p
(
y
=
0
∣
x
)
=
1
−
p
(
y
=
1
∣
x
)
=
1
−
σ
(
w
T
x
)
=
e
−
w
T
x
1
+
e
−
w
T
x
=
1
−
φ
(
x
,
w
)
p_{0}=p(y=0|x)=1-p(y=1|x)=1-\sigma(w^{T}x)=\frac{e^{-w^{T}x}}{1+e^{-w^{T}x}}=1-\varphi(x,w)
p0=p(y=0∣x)=1−p(y=1∣x)=1−σ(wTx)=1+e−wTxe−wTx=1−φ(x,w)
综合起来,把两个分类的条件概率统一到一个表达式中:
p
(
y
∣
x
)
=
p
1
y
p
0
1
−
y
p(y|x)=p_{1}^{y}p_{0}^{1-y}
p(y∣x)=p1yp01−y
这就是对条件概率进行建模,带估计参数即向量
w
w
w;
逻辑回归参数估计
面对样本数量为
N
N
N的数据集
(
X
,
Y
)
(X,Y)
(X,Y),先通过极大似然估计的思路求解
w
w
w:
w
m
l
e
=
a
r
g
m
a
x
w
l
o
g
(
p
(
Y
∣
X
)
)
=
a
r
g
m
a
x
w
l
o
g
∏
i
=
1
N
p
(
y
i
∣
x
i
)
=
a
r
g
m
a
x
w
∑
i
=
1
N
l
o
g
(
p
(
y
i
∣
x
i
)
)
w_{mle}=argmax_{w}log(p(Y|X))=argmax_{w}log\prod_{i=1}^{N}p(y_{i}|x_{i})=argmax_{w}\sum_{i=1}^{N}log(p(y_{i}|x_{i}))
wmle=argmaxwlog(p(Y∣X))=argmaxwlogi=1∏Np(yi∣xi)=argmaxwi=1∑Nlog(p(yi∣xi))
即:
w
m
l
e
=
a
r
g
m
a
x
w
∑
i
=
1
N
(
y
i
l
o
g
p
1
+
(
1
−
y
i
)
l
o
g
p
0
)
=
a
r
g
m
a
x
w
∑
i
=
1
N
(
y
i
l
o
g
(
φ
(
x
,
w
)
)
+
(
1
−
y
i
)
l
o
g
(
1
−
φ
(
x
,
w
)
)
)
w_{mle}=argmax_{w}\sum_{i=1}^{N}(y_{i}logp_{1}+(1-y_{i})logp_{0})=argmax_{w}\sum_{i=1}^{N}(y_{i}log(\varphi(x,w))+(1-y_{i})log(1-\varphi(x,w)))
wmle=argmaxwi=1∑N(yilogp1+(1−yi)logp0)=argmaxwi=1∑N(yilog(φ(x,w))+(1−yi)log(1−φ(x,w)))
至此,得到逻辑回归的目标:
w
m
l
e
=
a
r
g
m
i
n
w
[
−
∑
i
=
1
N
(
y
i
l
o
g
(
φ
(
x
,
w
)
)
+
(
1
−
y
i
)
l
o
g
(
1
−
φ
(
x
,
w
)
)
)
]
w_{mle}=argmin_{w}[-\sum_{i=1}^{N}(y_{i}log(\varphi(x,w))+(1-y_{i})log(1-\varphi(x,w)))]
wmle=argminw[−i=1∑N(yilog(φ(x,w))+(1−yi)log(1−φ(x,w)))]
一般来说,对于该目标,采用梯度下降逐步逼近
w
w
w的局部最优值。