第 3 章 线 性 模 型
3 . 1 线性回归
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w1x1+w2x2+...+wdxd+b f(x)=w1x1+w2x2+...+wdxd+b
给定由d个属性描述的示例 x = (x1;x2 ; … ;x3 ), 其 中 xi是 x 在 第 i 个属 性 上 的 取 值 。
一般用向量形式写成:
f
(
x
)
=
w
T
x
+
b
f(x)=wTx+b
f(x)=wTx+b
线性回归 模型的最小二乘“参 数 估 计 "
均方误差是回归任务中最常用的性能度量,因此我们可试图让均 方误差最小化,即
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
Σ
(
f
(
x
i
)
−
y
i
)
2
(w*,b*)=argminΣ(f(xi)-yi)2
(w∗,b∗)=argminΣ(f(xi)−yi)2
对上式子分别对w,b求偏导
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fvz5LjWj-1655732182245)(C:\Users\angaiei\Desktop\新建文件夹\图片\82f4617d473af1a30e8545bc27010fb2.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rOwE82sD-1655732182246)(C:\Users\angaiei\Desktop\新建文件夹\图片\d33df7756f0ef916cf149c00c68225bd.svg)]
令上式子等于零时可以得到
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nLS2GOAV-1655732182246)(C:\Users\angaiei\Desktop\新建文件夹\图片\35ec2aefb89a48f8eae09ef0eb1c8fbe.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PsE3DWDY-1655732182247)(C:\Users\angaiei\Desktop\新建文件夹\图片\6aaeae1b5c1b3e70a93ae4dc572f4145.svg)]
极大似然估计:
L
(
Θ
)
=
∏
P
(
x
i
;
Θ
)
L(\Theta )=\prod P(xi;\Theta )
L(Θ)=∏P(xi;Θ)
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
3.2 多元线性回归
$$
f(xi)=w^{T}xi+b
$$
f ( x i ) = ( w 1 , w 2 , w 3 , . . . , w d ) ( x i 1 x i d ) f(xi)=(w1,w2,w3,...,wd)\binom{xi1}{xid} f(xi)=(w1,w2,w3,...,wd)(xidxi1)
对数线性回归
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NXejW8XA-1655732182247)(C:\Users\angaiei\Desktop\新建文件夹\图片\image-20220620203535038.png)]
$$
lny=w^T + b
$$
y = g − 1 ( w T + b ) y=g^-1(w^T + b) y=g−1(wT+b)
这样得到的模型称为“广义线性模型" 显然,对数线性回归是广义线性模型在g () = In()时的特例.
3 .3 对数几率回归
若要做的是分类任务该 怎么办?只需找一个单调可微函数将 分类任务的真实标记y 与线性回归模型的预测值联系起来.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-73XjScNq-1655732182248)(C:\Users\angaiei\Desktop\新建文件夹\图片\image-20220620204059105.png)]
y
=
1
1
+
e
−
z
y=\frac{1}{1+e^-z}
y=1+e−z1
类似于式广义线性模型,该式子可变化为
l
n
y
1
−
y
=
w
T
+
b
ln\frac{y}{1-y}=w^T+b
ln1−yy=wT+b
若将y 视为样本x 作为正例的可能性,则 1 - y 是其反例可能性,两者的比值:
y
/
(
1
−
y
)
y/(1-y)
y/(1−y)
对几率取对数则得到 “对数几率”(log odds,亦称logit)
l
n
y
1
−
y
ln \frac{y}{1-y}
ln1−yy
的y 视为类 后验概率估计
l
n
p
(
y
=
0
∣
x
)
p
(
y
=
1
∣
x
)
=
w
T
+
b
ln \frac{p(y=0∣x)}{p(y=1∣x)}=w^T+b
lnp(y=1∣x)p(y=0∣x)=wT+b
显然有
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1∣x)=\frac{ew^Tx+b}{1+ew^Tx+b}
p(y=1∣x)=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=0∣x)=\frac{ew^Tx+b}{1+ew^Tx+b}
p(y=0∣x)=1+ewTx+bewTx+b
于是,我 们 可 通 过 “极大似然法”(maximum likelihood method)来估计, w 和 b
L
(
β
)
=
i
=
1
∏
m
p
(
y
i
∣
x
i
;
β
)
L(β)= i=1∏m p(yi∣ x i ^;β)
L(β)=i=1∏mp(yi∣xi;β)
两边取对数
ln
L
(
β
)
=
∑
i
=
1
m
ln
(
y
i
p
1
(
x
i
^
;
β
)
+
(
1
−
y
i
)
p
0
(
x
^
;
β
)
)
\ln L(\beta)= \sum_{i=1}^m \ln (y_ip_1(\hat{x_i};\beta)+(1-y_i)p_0(\hat{x};\beta))
lnL(β)=i=1∑mln(yip1(xi^;β)+(1−yi)p0(x^;β))
上式达到最小
ℓ
(
β
)
=
∑
(
−
y
i
β
T
x
i
+
l
n
(
1
+
e
β
T
x
i
)
)
ℓ(β)= ∑(−y i β T x i^ +ln(1+e^βTxi))
ℓ(β)=∑(−yiβTxi+ln(1+eβTxi))
信息论
信息熵
H
(
X
)
=
E
[
I
(
X
)
]
=
−
∑
x
p
(
x
)
l
o
g
b
p
(
x
)
H(X) = E[I(X)]=-\sum_{x}p(x)log_bp(x)
H(X)=E[I(X)]=−x∑p(x)logbp(x)
3.4 线性判别分析
线性判别分析(Linear Discriminant Analysis,简 称 LDA)是一种经典的线 FihZ 性学习方法。
LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样 本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新 样本的类别
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rn7To1Kw-1655732182248)(C:\Users\angaiei\Desktop\新建文件夹\图片\image-20220620210720968.png)]
目标函数最小化
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pmOu32gq-1655732182248)(C:\Users\angaiei\Desktop\新建文件夹\图片\微信图片_20220620211436.png)]
所以
L
(
w
,
λ
)
=
−
w
T
b
w
+
λ
(
w
T
S
w
w
−
1
)
L(w,λ)=−w^Tbw+λ(w^TSww−1)
L(w,λ)=−wTbw+λ(wTSww−1)
图片转存中…(img-rn7To1Kw-1655732182248)]
目标函数最小化
[外链图片转存中…(img-pmOu32gq-1655732182248)]
所以
L
(
w
,
λ
)
=
−
w
T
b
w
+
λ
(
w
T
S
w
w
−
1
)
L(w,λ)=−w^Tbw+λ(w^TSww−1)
L(w,λ)=−wTbw+λ(wTSww−1)