文章目录
1. 统计学学派
统计学不同的学派对概率的理解和解释不同,也影响着对统计问题的看法和处理。统计学中比较中要的三个学派为:
- 经典学派:经典学派认为概率就是长期试验中频率稳定性所反映的真值,坚持用频率的现象去解释概率所陈述的命题,所以也称为频率学派。它认为概率时客观的,是事物的一种属性。
- 贝叶斯学派:贝叶斯学派认为概率不能只用频率的稳定性来解释和理解。贝叶斯学派认为概率也反映了人们对某些事务认识的不确定性的程度,可以由人的经验,知识来做出判断,不需要借助频率的稳定性。
- 信念学派:坚持概率是频率稳定性的观点,这和经典学派是一致的。但是对统计方法所做出判断,不能用概率来描述,因为这个判断涉及到人对事物的认识,它是一种信念,所以Fisher把统计推断看成是信念推断,信念不同于概率。
不同学派对概率的不同理解,也导致了对统计问题的不同理解:
- 经典学派:认为要估计或检验的对象是客观存在的,样本是随机的,因此样本的函数——统计量是随机的,随机样本抽取的好,统计量就接近客观存在的真实统计量值。
- 贝叶斯学派:认为观察到样本之后,样本是已经确定的常数,不了解的是参数空间的状况,因此统计理论的重点应该放在参数空间(或总体分布所处的状态空间)。着重研究的是观察样本前后,人们对参数认识的改变。 先验分布反映人们未做统计实验时对总体的认识,后验分布反映人们已知统计实验结果后,对于总体的认识。
经典学派和贝叶斯学派对统计问题的不同认识衍生出了三种不同的建模思路:MLE,MAP和 Bayesian 。
2. 贝叶斯公式
贝叶斯公式:
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
p(\theta | D) = \frac{p(D|\theta)p(\theta)}{p(D)}
p(θ∣D)=p(D)p(D∣θ)p(θ)其中:
- p ( D ∣ θ ) p(D|\theta) p(D∣θ)为似然函数,表示模型参数中的似然性。给定输出x时,关于参数 θ θ θ的似然函数 L ( θ ∣ x ) L(θ|x) L(θ∣x)(在数值上)等于给定参数 θ ( p ( θ ) = 1 ) \theta(p(\theta)=1) θ(p(θ)=1)后变量X的概率: L ( θ ∣ x ) = P ( X = x ∣ θ ) L(\theta | x) = P(X=x|\theta) L(θ∣x)=P(X=x∣θ)
- p ( θ ) p(\theta) p(θ)为先验概率
- p ( θ ∣ D ) p(\theta | D) p(θ∣D)为后验概率
3. MLE
最大化似然函数(Maximum Likelihood Estimation, MLE)是经典学派参数估计的方法。MLE的主要思想是,学习参数 θ \theta θ来最大化我们观测到的数据。
3.1 MLE估计伯努利分布参数
假设我们连续抛了 n n n次硬币,实验数据 D = { X i } i = 1 n , X i ∈ { H , T } D=\{X_i\}_{i=1}^n,X_i \in \{H,T\} D={Xi}i=1n,Xi∈{H,T},需要估计抛一枚硬币头投朝上的概率 p ( y = H ) p(y=H) p(y=H)。此时只要计算10次试验中头朝上的频数与总的实验频数的比就可以了,即 p ( y = H ) = N H N H + N T p(y=H) = \frac{N_H}{N_H+N_T} p(y=H)=NH+NTNH,这就是MLE的做法。
假设
p
(
y
=
H
)
∼
B
(
θ
)
p(y=H) \sim B(\theta)
p(y=H)∼B(θ),即
p
(
y
=
h
e
a
d
)
p(y=head)
p(y=head)服从参数为
θ
\theta
θ的伯努利分布,则:
p
(
y
=
H
)
=
θ
p(y=H) =\theta
p(y=H)=θ
p
(
y
=
T
)
=
1
−
θ
p(y=T)=1-\theta
p(y=T)=1−θ 此时
θ
\theta
θ的似然函数为:
L
(
θ
∣
D
)
=
P
(
D
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
L(\theta|D) = P(D|\theta)=\prod_{i=1}^np(x_i|\theta)
L(θ∣D)=P(D∣θ)=i=1∏np(xi∣θ)
θ
∗
\theta ^ *
θ∗为最大化似然函数时的值(头朝上时
x
i
=
1
x_i=1
xi=1,否则
x
i
=
0
x_i=0
xi=0):
θ
∗
=
a
r
g
m
a
x
θ
∏
i
=
1
n
p
(
x
i
∣
θ
)
\theta ^ * = arg max_{\theta}\prod_{i=1}^np(x_i|\theta)
θ∗=argmaxθi=1∏np(xi∣θ)
=
∏
i
=
1
n
θ
x
i
(
1
−
θ
)
(
1
−
x
i
)
=\prod_{i=1}^n\theta^{x_i}(1-\theta)^{(1-x_i)}
=i=1∏nθxi(1−θ)(1−xi)
=
θ
N
H
θ
N
T
=\theta^{N_H}\theta^{N_T}
=θNHθNT 其中
N
H
N_H
NH样本中头朝上的次数,而
N
T
N_T
NT为尾朝上的次数。对目标函数
J
(
θ
)
=
θ
N
H
θ
N
T
J(\theta)=\theta^{N_H}\theta^{N_T}
J(θ)=θNHθNT求导,令其导数为0,求极大值:
∂
J
(
θ
)
∂
θ
=
N
H
θ
N
H
−
1
(
1
−
θ
N
T
)
−
N
T
θ
N
H
(
1
−
θ
)
N
T
−
1
=
0
\frac{\partial J(\theta)}{\partial \theta}=N_H\theta^{N_H-1}(1- \theta^{N_T})-N_T\theta^{N_H}(1-\theta)^{N_T-1}=0
∂θ∂J(θ)=NHθNH−1(1−θNT)−NTθNH(1−θ)NT−1=0
N
H
(
1
−
θ
)
−
N
T
θ
=
0
N_H(1-\theta)-N_T\theta=0
NH(1−θ)−NTθ=0
θ
=
N
H
N
H
+
N
T
\theta = \frac{N_H}{N_H+N_T}
θ=NH+NTNH
3.2 Hoeffding’s inwquality
我们认为当抛硬币的次数越多,估计出的
θ
\theta
θ越可靠,那么到底需要多少实验样本呢?
霍夫丁不等式给出了随机变量估计值
θ
^
\hat\theta
θ^的和与其期望值
θ
∗
\theta^*
θ∗偏差的概率上限:
P
(
∣
θ
^
−
θ
∗
∣
≥
ϵ
)
≤
2
e
−
2
n
ϵ
2
P(|\hat\theta-\theta^*| \geq \epsilon) \leq 2e^{-2n\epsilon^2}
P(∣θ^−θ∗∣≥ϵ)≤2e−2nϵ2 假设要求偏差的概率要小于
δ
\delta
δ, 则
n
≥
ln
(
2
/
δ
)
2
ϵ
2
n \geq \frac{\ln (2/ \delta)}{2\epsilon^2}
n≥2ϵ2ln(2/δ)
3.3 MLE估计高斯分布参数
4. MAP
最大化后验概率(Maximum A Posterior, MAP)是贝叶斯学派的参数估计的方法,该方法中
P
(
H
)
P(H)
P(H)虽然忍让服从
B
(
θ
)
B(\theta)
B(θ)分布,但是
θ
\theta
θ不在是一个固定不变的值,
θ
\theta
θ本身也服从一个参数分布。而贝叶斯方法就是要衡量
θ
\theta
θ的分布在观察数据前后的变化。
4.1 MAP估计伯努利分布参数
由第二节后验概率
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
p(\theta | D) = \frac{p(D|\theta)p(\theta)}{p(D)}
p(θ∣D)=p(D)p(D∣θ)p(θ)知
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p(\theta | D) = p(D|\theta)p(\theta)
p(θ∣D)=p(D∣θ)p(θ)
对于抛硬币问题,假设
θ
\theta
θ服从Beta分布,即:
P
(
θ
)
=
θ
β
H
−
1
(
1
−
θ
)
β
T
−
1
B
(
β
H
,
β
T
)
∼
B
e
t
a
(
β
H
,
β
T
)
P(\theta) = \frac{\theta^{\beta_H-1}(1-\theta)^{\beta_T-1}}{B(\beta_H,\beta_T)} \sim Beta(\beta_H,\beta_T)
P(θ)=B(βH,βT)θβH−1(1−θ)βT−1∼Beta(βH,βT) 似然函数服从Binomial(二项)分布:
P
(
D
∣
θ
)
=
C
n
α
H
θ
α
H
(
1
−
θ
)
α
T
P(D|\theta) = C_n^{\alpha_H} \theta^{\alpha_H}(1-\theta)^{\alpha_T}
P(D∣θ)=CnαHθαH(1−θ)αT 后验概率仍然是Beta分布:
P
(
θ
∣
D
)
∼
B
e
t
a
(
β
H
+
α
H
,
β
T
+
α
T
)
P(\theta|D) \sim Beta(\beta_H+\alpha_H,\beta_T+\alpha_T)
P(θ∣D)∼Beta(βH+αH,βT+αT)
P
(
θ
)
P(\theta)
P(θ)和
P
(
θ
∣
D
)
P(\theta|D)
P(θ∣D)有相同的形式,为共轭先验。
θ
^
M
A
P
=
a
r
g
m
a
x
θ
P
(
θ
∣
D
)
=
a
r
g
m
a
x
θ
P
(
D
∣
θ
)
P
(
θ
)
\hat\theta_{MAP} = arg max_{\theta} P(\theta|D) = arg max_{\theta} P(D|\theta)P(\theta)
θ^MAP=argmaxθP(θ∣D)=argmaxθP(D∣θ)P(θ)
=
α
H
+
β
H
−
1
α
H
+
β
H
+
α
T
+
β
T
−
2
=\frac{\alpha_H + \beta_H -1}{\alpha_H + \beta_H + \alpha_T+\beta_T-2}
=αH+βH+αT+βT−2αH+βH−1
由上图可见,随着
n
n
n的增大,从数据中获得的参数的似然性
P
(
θ
∣
D
)
P(\theta|D)
P(θ∣D)的重要性越来越大,而先验的重要性会降低。
所以随着我们观测到的数据越来越多,MAP估计逐步逼近MLE 。
4.2 MLE vs. MAP
5. 贝叶斯分类器
第二节中贝叶斯公式如下:
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
p(\theta |D) = \frac{p(D|\theta)p(\theta)}{p(D)}
p(θ∣D)=p(D)p(D∣θ)p(θ) 一般在贝叶斯分类中,对于样本
x
∈
D
x \in D
x∈D,
x
=
(
x
1
,
.
.
.
.
,
x
m
)
x=(x_1,....,x_m)
x=(x1,....,xm)由
m
m
m个独立特征构成,
θ
\theta
θ为类别,
p
(
θ
)
p(\theta)
p(θ)为类别的先验概率, 因为
p
(
D
)
p(D)
p(D)是固定的,所以
p
(
θ
∣
D
)
≈
p
(
D
∣
θ
)
p
(
θ
)
p(\theta| D) \approx p(D | \theta)p(\theta)
p(θ∣D)≈p(D∣θ)p(θ)。
因为特征之间彼此独立,
p
(
x
∣
θ
)
=
∏
i
=
1
m
p
(
x
i
∣
θ
)
p(x | \theta)= \prod_{i=1}^mp(x_i|\theta)
p(x∣θ)=∏i=1mp(xi∣θ)
贝叶斯分类器主要是从数据中直接估计后验概率
p
(
θ
∣
x
)
=
∏
i
=
1
m
p
(
x
i
∣
θ
)
p
(
θ
)
p(\theta|x)=\prod_{i=1}^mp(x_i|\theta)p(\theta)
p(θ∣x)=∏i=1mp(xi∣θ)p(θ),没有优化的过程。
6. 从三个角度建模LR
从MLE、MAP、Bayesian三个角度对LR建模,可以得到LR,Regularized LR和Bayesian LR。
6.1 MLE:LR
最基础的LR模型的参数估计就是最大化log似然函数,所以这边不再赘述。
6.2 MAP:Regularized LR
在接触过l1,l2正则化的朋友都知道l1其实对参数引入了拉普拉斯先验,而l2对参数引入了高斯先验,现在尝试从MAP角度建模LR模型,会发现引入高斯先验的LR正好是加入l2范式的形式。
假设
P
(
y
=
1
∣
x
;
w
)
=
ϕ
=
1
1
+
e
−
w
T
x
P(y=1|x;w) =\phi = \frac{1}{1+e^{-w^Tx}}
P(y=1∣x;w)=ϕ=1+e−wTx1,
p
(
w
i
)
=
1
2
π
α
e
x
p
(
−
(
w
i
)
2
2
α
2
)
p(w_i) = \frac{1}{\sqrt{2\pi}\alpha}exp(-\frac{(w_i)^2}{2\alpha^2})
p(wi)=2πα1exp(−2α2(wi)2)
后验概率:
L
(
w
)
=
p
(
y
∣
X
;
w
)
p
(
x
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
w
)
p
(
w
)
L(w) = p(y|X;w)p(x)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};w)p(w)
L(w)=p(y∣X;w)p(x)=i=1∏mp(y(i)∣x(i);w)p(w)
=
∏
i
=
1
m
ϕ
y
(
i
)
(
1
−
ϕ
(
1
−
y
(
i
)
)
)
∏
j
=
1
n
1
2
π
α
e
x
p
(
−
(
w
j
)
2
2
α
2
)
=\prod_{i=1}^m \phi^{y^{(i)}}(1-\phi^{(1-y^{(i)})})\prod_{j=1}^n \frac{1}{\sqrt{2\pi}\alpha}exp(-\frac{(w_j)^2}{2\alpha^2})
=i=1∏mϕy(i)(1−ϕ(1−y(i)))j=1∏n2πα1exp(−2α2(wj)2) 取对数后:
l
(
w
)
=
l
o
g
L
(
w
)
=
l
o
g
∏
i
=
1
m
ϕ
y
(
i
)
(
1
−
ϕ
(
1
−
y
(
i
)
)
)
+
l
o
g
∏
j
=
1
n
1
2
π
α
e
x
p
(
−
(
w
j
)
2
2
α
2
)
l(w) = logL(w) =log\prod_{i=1}^m \phi^{y^{(i)}}(1-\phi^{(1-y^{(i)})}) + log\prod_{j=1}^n \frac{1}{\sqrt{2\pi}\alpha}exp(-\frac{(w_j)^2}{2\alpha^2})
l(w)=logL(w)=logi=1∏mϕy(i)(1−ϕ(1−y(i)))+logj=1∏n2πα1exp(−2α2(wj)2) 该式的前半部分为LR的优化目标函数,后半部分为先验部分:
l
o
g
p
(
w
)
=
−
1
2
α
2
∑
j
=
1
n
(
w
j
)
2
+
∑
j
=
1
n
1
2
π
α
=
−
1
2
α
2
∑
j
=
1
n
(
w
j
)
2
+
C
logp(w) =- \frac{1}{2\alpha^2}\sum_{j=1}^n(w_j)^2+\sum_{j=1}^n\frac{1}{\sqrt{2\pi}\alpha}=- \frac{1}{2\alpha^2}\sum_{j=1}^n(w_j)^2+C
logp(w)=−2α21j=1∑n(wj)2+j=1∑n2πα1=−2α21j=1∑n(wj)2+C
6.3 Bayesian: Bayesian LR
待补充
①由最大似然估计的形式可以知道,使用ML拟合数据很可能产生过拟合的情况。
②同样地,由于最大后验估计通过使用贝叶斯理论使得MAP可以通过ML来计算。这里,使用最大后验估计对数据进行拟合就会出现两种情况:当参数向量是一个均匀分布的时候,那么MAP跟ML几乎是一样的,因此会产生过拟合的情况;第二就是,当参数向量具有其它别的概率分布的时候,我们就可以通过假定参数向量符合某种分布,如高斯分布,从而对数据的拟合进行平滑。需要理解的是,数据的概率分布和参数向量的概率分布是不一样的,我们可以假定数据具有某种概率分布,这种概率分布通过一些参数确定该分布的具体形式。而这些参数的取值可能具有某种概率分布。
③所谓的贝叶斯线性回归其实就是使用了线性模型背后的概率模型,通过概率模型确定线性模型的回归系数。而在使用概率模型确定回归系数的过程中就用到了MAP,所以贝叶斯线性回归能够防止过拟合,就是因为它的计算使用了MAP。