文章目录
一、一些简单的概率统计
1.概念
- 概率:对随机事件发生可能性大小的度量
- 条件概率:事件B已发生的条件下,事件A发生的概率,记作 P ( A ∣ B ) P(A \mid B) P(A∣B)
- 联合概率:A和B共同发生的概率,称事件A和B的联合概率,记为 P ( A , B ) P(A,B) P(A,B)
- 独立事件:事件A(或B)是否发生对事件B(或A)的发生概率没有影响,则称A和B为相互独立事件
- 条件独立:在给定C的条件下,若事件A和B满足
P
(
A
,
B
∣
C
)
=
P
(
A
,
C
)
⋅
P
(
B
,
C
)
P(A,B \mid C)=P(A,C) \cdot P(B,C)
P(A,B∣C)=P(A,C)⋅P(B,C)或
P
(
A
∣
B
,
C
)
=
P
(
A
∣
C
)
P(A \mid B,C)= P(A \mid C)
P(A∣B,C)=P(A∣C),则称在给定C的情况下A和B独立
2.全概率公式&贝叶斯公式
- 乘法原理
P ( A , B ) = P ( A ∣ B ) ⋅ P ( B ) = P ( B ∣ A ) ⋅ P ( A ) \begin{aligned} P(A,B) & =P(A \mid B) \cdot P(B) \\ & = P(B \mid A) \cdot P(A) \end{aligned} P(A,B)=P(A∣B)⋅P(B)=P(B∣A)⋅P(A) - 全概率公式
A为任一事件, B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn是样本空间 Ω \Omega Ω的一个划分,且 B i B_i Bi两两互斥, P ( B i ) > 0 , ( i = 1 , 2 , . . . , n ) P(B_i)>0,(i=1,2,...,n) P(Bi)>0,(i=1,2,...,n),那么有:
P ( A ) = ∑ i = 1 n P ( A , B i ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\sum^n_{i=1}P(A,B_i)=\sum^n_{i=1}P(A \mid B_i)P(B_i) P(A)=i=1∑nP(A,Bi)=i=1∑nP(A∣Bi)P(Bi) - 贝叶斯公式
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i \mid A)=\frac{P(B_i)P(A \mid B_i)}{\sum^n_{j=1}P(B_j)P(A \mid B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
3.随机变量
- 概率密度函数
是描述随机变量输出值在某确定取值点附近可能性的函数,图中红色 p ( x ) p(x) p(x)为概率密度函数,蓝色 P ( x ) P(x) P(x)为分布函数, P ( x ) P(x) P(x)由 p ( x ) p(x) p(x)积分得到。
- 期望
描述一个随机变量所取值的概率平均
离散型: E [ X ] = ∑ k = 1 ∞ x k p k E[X]=\sum^\infin_{k=1}x_kp_k E[X]=k=1∑∞xkpk
连续型: E [ X ] = ∫ − ∞ + ∞ x f ( x ) d x E[X]=\int^{+\infin}_{-\infin}xf(x)dx E[X]=∫−∞+∞xf(x)dx - 方差
随机变量的方差描述的该随机变量的值偏离其期望值的程度
离散型:
V a r ( x ) = E [ X − E ( X ) ] 2 = ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k = E ( X 2 ) − E ( X ) 2 \begin{aligned} Var(x) & = E[X-E(X)]^2 \\ & = \sum^\infin_{k=1}[x_k-E(X)]^2p_k \\ & = E(X^2)-E(X)^2 \end{aligned} Var(x)=E[X−E(X)]2=k=1∑∞[xk−E(X)]2pk=E(X2)−E(X)2
连续型:
V a r ( X ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 f ( x ) d x Var(X)=\int^{+\infin}_{-\infin}[x-E(x)]^2f(x)dx Var(X)=∫−∞+∞[x−E(x)]2f(x)dx
4.高斯分布
- 一维高斯分布
N ( x ∣ μ , σ 2 ) = ( 2 π σ 2 ) − 1 2 exp { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}(x \mid \mu,\sigma^2)=(2\pi\sigma^2)^{-\frac{1}{2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} N(x∣μ,σ2)=(2πσ2)−21exp{−2σ21(x−μ)2} - 多维高斯分布
N ( x ∣ μ , Σ ) = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } \mathcal{N}(x \mid \mu,\Sigma)=\frac{1}{(2\pi)^{\frac{D}{2}}} \frac{1}{|\Sigma|^\frac{1}{2}} \exp\{-\frac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1}(x-\mu)\} N(x∣μ,Σ)=(2π)2D1∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}
5.极大似然估计
- 似然函数
p ( x 1 , x 2 , . . . , x n ) = ∏ j = 1 N p ( x j ∣ θ ) p(x_1,x_2,...,x_n)=\prod^N_{j=1}p(x_j \mid \theta) p(x1,x2,...,xn)=j=1∏Np(xj∣θ)
若似然函数可微,则可对微分方程进行求解,作为极值的必要条件:
∂ p ( x 1 , x 2 , . . . , x n ∣ θ ) ∂ θ = 0 或 ∂ ln p ( x 1 , x 2 , . . . , x n ∣ θ ) ∂ θ \frac{\partial p(x_1,x_2,...,x_n \mid \theta)}{\partial \theta}=0 \quad 或 \quad \frac{\partial \ln p(x_1,x_2,...,x_n \mid \theta)}{\partial \theta} ∂θ∂p(x1,x2,...,xn∣θ)=0或∂θ∂lnp(x1,x2,...,xn∣θ)
二、线性回归模型
假设函数
f
f
f为输入
x
x
x的线性函数:
f
(
x
)
=
w
0
+
w
1
x
1
+
.
.
.
+
w
m
x
m
=
w
0
+
∑
j
=
1
m
w
i
x
i
=
w
T
x
\begin{aligned} f(x) & = w_0+w_1x_1+...+w_mx_m \\ & = w_0 + \sum^m_{j=1}w_ix_i \\ & = \textbf{w}^{\mathrm{T}} \textbf{x} \end{aligned}
f(x)=w0+w1x1+...+wmxm=w0+j=1∑mwixi=wTx
将线性回归拓展到非线性:引入基函数
三、线性回归求解算法
- 问题的本质:确定模型中的参数 w T \textbf{w}^{\mathrm{T}} wT
- 基本思想:基于训练集最小化预测值 f f f与真是输出值 y y y的差异
- 目标函数(或代价函数):
J ( w ) = 1 2 ∑ i = 1 N ( f ( x i ) − y i ) 2 J(\textbf{w})=\frac{1}{2}\sum^N_{i=1}(f(x_i)-y_i)^2 J(w)=21i=1∑N(f(xi)−yi)2 进一步得到参数:
w ^ = arg min w = arg min w 1 2 ∑ i = 1 N ( f ( x i ) − y i ) 2 \hat{\textbf{w}}=\argmin_\textbf{w}=\argmin_\textbf{w}\frac{1}{2}\sum^N_{i=1}(f(x_i)-y_i)^2 w^=wargmin=wargmin21i=1∑N(f(xi)−yi)2 - 求解算法:
- 梯度下降法:BGD,SGD,MBGD
- 标准方程组
1.梯度下降法
为了使损失函数
J
(
w
)
J(w)
J(w)最小,首先对
w
w
w赋初值,这个值可以是随机的,也可以是一个全零的向量;之后不断更新
w
w
w的值,使得
J
(
w
)
J(w)
J(w)按梯度下降的方向进行减少,直到收敛。
-
批处理梯度下降(BGD - Batch Gradient Descent)
每次利用所有的数据更新参数 w w w(同时更新 w w w的各个维度, α \alpha α为学习率):
w j t = w j t − 1 − α ∂ ∂ w j J ( w ) ∂ ∂ w j J ( w ) = ∑ i = 1 N ( f ( x i ) − y i ) x i , j w^t_j=w^{t-1}_j-\alpha \frac{\partial}{\partial w_j}J(w) \\ \frac{\partial}{\partial w_j}J(w) = \sum^N_{i=1}(f(x_i)-y_i)x_{i,j} wjt=wjt−1−α∂wj∂J(w)∂wj∂J(w)=i=1∑N(f(xi)−yi)xi,j 在大样本条件上下,BGD的迭代速度很慢 -
随机梯度下降(SGD - Stochastic Gradient Descent)
SGD又称为在线学习,基本思想为如果条件对所有样本成立,则对任一样本也成立。每次只用一个样本 ( x r , y r ) (x_r,y_r) (xr,yr)对参数 w \textbf{w} w进行更新:
w j t = w j t − 1 − α ( f ( x r ) − y r ) w^t_j=w^{t-1}_j-\alpha(f(x_r)-y_r) wjt=wjt−1−α(f(xr)−yr) SGD收敛速度快,不太容易陷入局部最优,对大样本数据较有效。 -
小批量处理梯度下降(MBGD - Mini-Batch Gradient Descent)
介于上述两种方法之间,每次更新用一部分样本对参数 w \textbf{w} w进行更新。
2.标准方程组
将目标函数改写成矩阵形式:
J
(
w
)
=
∑
i
=
1
N
(
w
T
x
i
−
y
i
)
2
=
(
X
w
−
y
)
T
(
X
w
−
y
)
\begin{aligned} J(\textbf{w}) & =\sum^N_{i=1}(\textbf{w}^{\mathrm{T}}x_i-y_i)^2 \\ & = (X\textbf{w}-y)^{\textbf{T}}(X\textbf{w}-y) \end{aligned}
J(w)=i=1∑N(wTxi−yi)2=(Xw−y)T(Xw−y)
其中
X
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
(
x
11
x
12
…
x
1
m
x
21
x
22
…
x
2
m
⋮
⋮
⋱
⋮
x
N
1
x
N
2
…
x
N
m
)
y
=
(
y
1
y
2
⋮
y
N
)
T
X= \begin{pmatrix} \textbf{x}^{\mathrm{T}}_1 \\ \textbf{x}^{\mathrm{T}}_2 \\ \vdots \\ \textbf{x}^{\mathrm{T}}_N \end{pmatrix}= \begin{pmatrix} x_{11} & x_{12} & \ldots & x_{1m} \\ x_{21} & x_{22} & \ldots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N1} & x_{N2} & \ldots & x_{Nm} \end{pmatrix} \quad \quad \textbf{y}= \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}^{\mathrm{T}}
X=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2……⋱…x1mx2m⋮xNm⎠⎟⎟⎟⎞y=⎝⎜⎜⎜⎛y1y2⋮yN⎠⎟⎟⎟⎞T
对
w
\mathrm{w}
w求偏导:
∂
∂
w
J
(
w
)
=
∂
∂
w
(
X
w
−
y
)
T
(
X
w
−
y
)
=
2
X
T
(
X
w
−
y
)
\begin{aligned} \frac{\partial}{\partial \textbf{w}}J(\textbf{w}) & = \frac{\partial}{\partial \textbf{w}}(X\textbf{w}-\textbf{y})^{\mathrm{T}}(X\textbf{w}-\textbf{y}) \\ & = 2X^{\mathrm{T}}(X\textbf{w}-\textbf{y}) \end{aligned}
∂w∂J(w)=∂w∂(Xw−y)T(Xw−y)=2XT(Xw−y)
令偏导数等于0,可得:
w
^
=
(
X
T
X
)
−
1
X
T
y
\hat{\textbf{w}}=(X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}\textbf{y}
w^=(XTX)−1XTy
3.两种方法的对比
四、回归模型的深入探讨
我们可以将每一个数据样本点看作是在回归曲线的基础之上加入了一个高斯噪声。即对于点
x
0
x_0
x0,其对应的曲线拟合回归值为
y
(
x
0
,
w
)
y(x_0,\textbf{w})
y(x0,w),对应的真实样本观测值为
t
t
t,则可以将
t
t
t看作是由高斯分布
p
(
t
∣
x
0
,
w
,
β
)
=
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
p(t \mid x_0,\textbf{w},\beta)=\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1})
p(t∣x0,w,β)=N(t∣y(x,w),β−1)生成得到的,其中
β
−
1
=
σ
2
\beta^{-1}=\sigma^2
β−1=σ2
于是模型为:
t
=
y
(
x
,
w
)
+
ϵ
p
(
ϵ
∣
β
)
=
N
(
ϵ
∣
0
,
β
−
1
)
t=y(\textbf{x},\textbf{w}) + \epsilon \quad \quad \quad p(\epsilon \mid \beta)=\mathcal{N}(\epsilon \mid 0,\beta^{-1})
t=y(x,w)+ϵp(ϵ∣β)=N(ϵ∣0,β−1)
1.极大似然估计
基本思想:把待估计的参数看做是确定的量,只是其取值未知。最佳估计就是使得产生以观测到的样本的概率最大的那个值。
根据定义的模型可以得到似然函数和对数似然函数:
p
(
t
∣
x
,
w
,
β
)
=
∏
n
=
1
N
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
ln
p
(
t
∣
x
,
w
,
β
)
=
−
β
2
∑
n
=
1
N
[
y
(
x
n
,
w
)
−
t
n
]
2
+
N
2
ln
β
−
N
2
ln
(
2
π
)
p(t \mid \textbf{x},\textbf{w},\beta)=\prod^N_{n=1}\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1}) \\ \ln p(t \mid \textbf{x},\textbf{w},\beta)=-\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{N}{2}\ln \beta - \frac{N}{2} \ln(2\pi)
p(t∣x,w,β)=n=1∏NN(t∣y(x,w),β−1)lnp(t∣x,w,β)=−2βn=1∑N[y(xn,w)−tn]2+2Nlnβ−2Nln(2π) 观察上式可以发现,最大化对数似然函数
ln
p
(
t
∣
x
,
w
,
β
)
\ln p(t \mid \textbf{x},\textbf{w},\beta)
lnp(t∣x,w,β)等价于最小化
∑
n
=
1
N
[
y
(
x
n
,
w
)
−
t
n
]
2
\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2
∑n=1N[y(xn,w)−tn]2,这与之前定义的MSE目标函数
J
(
w
)
J(\mathrm{w})
J(w)是相同的。
2.最大后验估计(MAP)
基本思想:把待估计的参数看做是符合某种先验概率分布的随机变量。 对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,从而利用样本信息修正了对参数的初始估计值。
根据贝叶斯公式得到:
p
(
w
∣
x
,
t
,
α
,
β
)
∝
p
(
t
∣
x
,
w
,
β
)
p
(
w
∣
α
)
p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta) \propto p(\textbf{t} \mid \textbf{x},\textbf{w},\beta)p(\textbf{w} \mid \alpha)
p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α) 其中
p
(
w
∣
α
)
p(\textbf{w} \mid \alpha)
p(w∣α)为参数
w
\textbf{w}
w的先验分布,定义为均值为0的高斯分布:
p
(
w
∣
α
)
=
N
(
w
∣
0
,
α
−
1
I
)
=
(
α
2
π
)
M
+
1
2
exp
(
−
α
2
w
T
w
)
\begin{aligned} p(\textbf{w} \mid \alpha)& =\mathcal{N}(\textbf{w} \mid \textbf{0},\alpha^{-1}\textbf{I}) \\ & = (\frac{\alpha}{2\pi})^{\frac{M+1}{2}} \exp(-\frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}) \end{aligned}
p(w∣α)=N(w∣0,α−1I)=(2πα)2M+1exp(−2αwTw) 则似然函数及对数似然函数为:
p
(
w
∣
x
,
t
,
α
,
β
)
=
∏
n
=
1
N
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
⋅
(
α
2
π
)
M
+
1
2
exp
(
−
α
2
w
T
w
)
ln
p
(
w
∣
x
,
t
,
α
,
β
)
=
−
β
2
∑
n
=
1
N
[
y
(
x
n
,
w
)
−
t
n
]
2
+
N
2
ln
β
−
N
2
ln
(
2
π
)
+
M
+
1
2
ln
(
α
2
π
)
−
α
2
w
T
w
p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta)=\prod^N_{n=1}\mathcal{N}(t\mid y(x,\textbf{w}), \beta^{-1}) \cdot (\frac{\alpha}{2\pi})^{\frac{M+1}{2}} \exp(-\frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}) \\ \ln p(\textbf{w} \mid \textbf{x},\textbf{t},\alpha,\beta)=-\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{N}{2}\ln \beta - \frac{N}{2} \ln(2\pi) + \frac{M+1}{2} \ln(\frac{\alpha}{2\pi}) - \frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}
p(w∣x,t,α,β)=n=1∏NN(t∣y(x,w),β−1)⋅(2πα)2M+1exp(−2αwTw)lnp(w∣x,t,α,β)=−2βn=1∑N[y(xn,w)−tn]2+2Nlnβ−2Nln(2π)+2M+1ln(2πα)−2αwTw 观察到最大化上述对数似然函数等价于最小化下式:
β
E
^
(
w
)
=
β
2
∑
n
=
1
N
[
y
(
x
n
,
w
)
−
t
n
]
2
+
α
2
w
T
w
\beta \hat{E}(\textbf{w})=\frac{\beta}{2}\sum^N_{n=1}[y(x_n,\textbf{w})-t_n]^2 + \frac{\alpha}{2}\textbf{w}^{\mathrm{T}}\textbf{w}
βE^(w)=2βn=1∑N[y(xn,w)−tn]2+2αwTw 可以发现,这相当于在目标函数
J
(
w
)
J(\textbf{w})
J(w)中加入了二次正则化项。