系列文章目录
【DataWhale机器学习吃瓜教程】 第一章 绪论
【DataWhale机器学习吃瓜教程】 第二章 模型评估与选择
【DataWhale机器学习吃瓜教程】 第三章(一)线性回归部分
概述
一、算法原理
在线性模型的基础上套一个映射函数实现分类功能
即从x->f(x)->P(概率)的映射,往往是映射到0~1之间
二、损失函数的极大似然估计推导
第一步:确定概率质量(密度)函数
已知离散性随机变量
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1}取值未1和0的概率分别建模为
p
(
y
=
1
∣
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1|x)=\frac 1 {1+e^{-(w^Tx+b)}}=\frac {e^{w^Tx+b}} {1+e^{w^Tx+b}}
p(y=1∣x)=1+e−(wTx+b)1=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
−
p
(
y
=
1
∣
x
)
=
1
1
+
e
w
T
x
+
b
p(y=0|x)=1 - p(y=1|x)=\frac 1 {1+e^{w^Tx+b}}
p(y=0∣x)=1−p(y=1∣x)=1+ewTx+b1
为便于讨论,令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\beta=(w;b),\hat{x}=(x;1)
β=(w;b),x^=(x;1),则上式可简写为
p
(
y
=
1
∣
x
^
;
β
)
=
e
β
T
x
^
1
+
e
β
T
x
^
=
p
1
(
x
^
;
β
)
p(y=1|\hat{x};\beta)=\frac {e^{\beta^T\hat{x}}} {1+e^{\beta^T\hat{x}}}=p_1(\hat{x};\beta)
p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
p
(
y
=
0
∣
x
^
;
β
)
=
1
1
+
e
β
T
x
^
=
p
0
(
x
^
;
β
)
p(y=0|\hat{x};\beta)=\frac 1 {1+e^{\beta^T\hat{x}}}=p_0(\hat{x};\beta)
p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
由以上可推得随机变量
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1}的概率质量函数为
p
(
y
∣
x
^
;
β
)
=
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
p(y|\hat{x};\beta)=y\cdot p_1(\hat{x};\beta)+(1-y)\cdot p_0(\hat{x};\beta)
p(y∣x^;β)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)
第二步:写出似然函数
L
(
β
)
=
∏
i
=
1
m
p
(
y
i
∣
x
^
i
;
β
)
L(\beta)=\prod\limits^m_{i=1}p(y_i|\hat{x}_i;\beta)
L(β)=i=1∏mp(yi∣x^i;β)
对数似然函数为
l
(
β
)
=
ln
L
(
β
)
=
∏
i
=
1
m
ln
p
(
y
i
∣
x
^
i
;
β
)
l(\beta)=\ln L(\beta)=\prod\limits^m_{i=1}\ln p(y_i|\hat{x}_i;\beta)
l(β)=lnL(β)=i=1∏mlnp(yi∣x^i;β)
l
(
β
)
=
∑
i
=
1
m
ln
(
y
i
p
1
(
x
^
i
;
β
)
+
(
1
−
y
i
)
p
0
(
x
^
i
;
β
)
)
l(\beta)=\sum\limits^m_{i=1}\ln (y_ip_1(\hat{x}_i;\beta)+(1-y_i)p_0(\hat{x}_i;\beta))
l(β)=i=1∑mln(yip1(x^i;β)+(1−yi)p0(x^i;β))
将第一步带入,得
l
(
β
)
=
∑
i
=
1
m
(
ln
(
y
i
e
β
T
x
^
i
+
1
−
y
i
)
−
ln
(
1
+
e
β
T
x
^
i
)
)
l(\beta)=\sum\limits^m_{i=1}\big(\ln(y_ie^{\beta^T\hat{x}_i}+1-y_i)-\ln(1+e^{\beta^T\hat{x}_i})\big)
l(β)=i=1∑m(ln(yieβTx^i+1−yi)−ln(1+eβTx^i))
将y=0,y=1综合可得
l
(
β
)
=
∑
i
=
1
m
(
y
i
β
T
x
^
i
−
ln
(
1
+
e
β
T
x
^
i
)
)
l(\beta)=\sum\limits^m_{i=1}\big(y_i{\beta^T\hat{x}_i}-\ln(1+e^{\beta^T\hat{x}_i})\big)
l(β)=i=1∑m(yiβTx^i−ln(1+eβTx^i))
取反即为公式3.27
三、从信息论角度推导
自信息:
I
(
X
)
=
−
log
b
p
(
x
)
I(X)=-\log_bp(x)
I(X)=−logbp(x)
信息熵:自信息得期望,度量随机变量X的不确定性,信息熵越大越不确定、
H
(
X
)
=
E
[
I
(
X
)
]
=
−
∑
p
(
x
)
log
b
p
(
x
)
H(X)=E[I(X)]=-\sum p(x)\log_bp(x)
H(X)=E[I(X)]=−∑p(x)logbp(x)
相对熵(KL散度):度量两个分布之间的差距
D
K
L
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
log
b
(
p
(
x
)
q
(
x
)
)
=
∑
x
p
(
x
)
(
log
b
p
(
x
)
−
log
q
(
x
)
)
=
∑
x
p
(
x
)
log
b
p
(
x
)
−
∑
x
p
(
x
)
log
q
(
x
)
\begin{equation} \begin{split} D_{KL}(p||q) &=\sum_xp(x)\log_b\big(\frac {p(x)} {q(x)}\big) \\ &=\sum_xp(x)\big(\log_b{p(x)}-\log {q(x)}\big) \\ &=\sum_xp(x)\log_b{p(x)}-\sum_xp(x)\log {q(x)} \end{split} \end{equation}
DKL(p∣∣q)=x∑p(x)logb(q(x)p(x))=x∑p(x)(logbp(x)−logq(x))=x∑p(x)logbp(x)−x∑p(x)logq(x)
其中
−
∑
x
p
(
x
)
log
q
(
x
)
-\sum_xp(x)\log {q(x)}
−∑xp(x)logq(x)为交叉熵
前半部分是信息熵,作为理想分布,其值是固定的,所以最小化相对熵可以转化为最小化交叉熵
感谢谢文睿大佬的视频课和南瓜书,对数几率回归的视频链接在这里!
https://www.bilibili.com/video/BV1Mh411e7VU?p=5&vd_source=1c7ec538e0273994262b530486f66a18