这是我上的统计计算课讲的主要内容,写在这可以互相交流,有些地方我不是很理解的会标出来,求大佬在留言处表达自己的看法,另外如果有啥问题也可以在留言处留言,如果我看到了会回复
一些模型的科普
线性模型,logistic模型,高斯混合模型
很容易,其他地方也有很多资料,故不写
系统发育树模型
可能开一个新坑写,但在此不写
LDA模型(主题分析)
已经开了一个新坑去写了
一些关于似然函数的东西
为了简单起见,我们假设只有一个样本X,并且X服从参数为
θ
\theta
θ的分布
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ),其中
θ
\theta
θ是一维的,所以对数似然函数
L
(
θ
;
x
)
=
p
(
x
∣
θ
)
L(\theta;x)=p(x|\theta)
L(θ;x)=p(x∣θ)
定义L关于
θ
\theta
θ的梯度为score function,即
s
(
θ
;
x
)
=
∂
L
∂
θ
s(\theta;x)=\frac{\partial L}{\partial \theta}
s(θ;x)=∂θ∂L
在一些正则性条件下(目的是想让求导和积分可交换,例如指数分布族就满足这些条件),我们有
E
(
s
)
=
0
(
推
导
较
为
容
易
)
E(s)=0(推导较为容易)
E(s)=0(推导较为容易)
定义fisher信息量
I
(
θ
;
x
)
I(\theta;x)
I(θ;x),即为score function的方差
I
(
θ
;
x
)
=
E
(
s
s
T
)
I(\theta;x)=E(ss^T)
I(θ;x)=E(ssT)
同样在一些正则性条件下,有
I
(
θ
;
x
)
=
−
E
(
∂
2
L
∂
θ
∂
θ
T
)
I(\theta;x)=-E(\frac{\partial^2 L}{\partial \theta \partial \theta^T})
I(θ;x)=−E(∂θ∂θT∂2L)
直观来看Fisher信息量是似然函数在
θ
\theta
θ处的曲率,只不过这种曲率取了期望(因为曲率也有分布),而曲率能够反映函数在一点的敏感程度,所以Fisher信息量能够反映建立的模型在某参数处的稳定程度。
下面我们定义KL距离(Kullback-Leibler divergence),并且用此距离来从另一个角度粗略地解释最大似然估计,KL距离是度量两个分布的“距离”,但是没有对称性,所以严格来说不满足经典的距离的定义,假设我们有密度函数p和q,定义
D
K
L
(
q
∣
∣
p
)
=
∫
q
(
x
)
l
n
q
(
x
)
p
(
x
)
d
x
D_{KL}(q||p)=\int q(x)ln\frac{q(x)}{p(x)}dx
DKL(q∣∣p)=∫q(x)lnp(x)q(x)dx
可以验证KL距离非负,并且当p,q相同时,KL距离为0,下面说明KL距离与最大似然估计的关系,设x的真实分布为
p
d
a
t
a
(
x
)
p_{data}(x)
pdata(x),由于实际中不止一个样本,而是有大量的样本(假设有n个),所以由大数定律有
1
n
L
(
θ
;
x
)
≈
E
x
∼
p
d
a
t
a
(
x
)
(
l
n
(
p
(
x
∣
θ
)
)
)
\frac{1}{n}L(\theta;\bm{x}) \approx E_{x\sim p_{data}(x)}(ln(p(x|\theta)))
n1L(θ;x)≈Ex∼pdata(x)(ln(p(x∣θ)))
设最大似然估计为
θ
∗
\theta^*
θ∗,则
θ
∗
=
arg
max
θ
1
n
L
(
θ
;
x
)
≈
arg
max
θ
E
x
∼
p
d
a
t
a
(
x
)
(
l
n
(
p
(
x
∣
θ
)
)
)
\theta^* = \arg\max \limits_{\theta}\frac{1}{n}L(\theta;\bm{x}) \approx \arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(p(x|\theta)))
θ∗=argθmaxn1L(θ;x)≈argθmaxEx∼pdata(x)(ln(p(x∣θ)))
=
arg
max
θ
E
x
∼
p
d
a
t
a
(
x
)
(
l
n
(
p
(
x
∣
θ
)
p
d
a
t
a
(
x
)
)
)
=\arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(\frac{p(x|\theta)}{p_{data}(x)}))
=argθmaxEx∼pdata(x)(ln(pdata(x)p(x∣θ)))
=
arg
min
θ
D
K
L
(
p
d
a
t
a
(
x
)
∥
p
(
x
∣
θ
)
)
=\arg\min \limits_{\theta} D_{KL}(p_{data}(x)\|p(x|\theta))
=argθminDKL(pdata(x)∥p(x∣θ))
也就是说求最大似然估计是求一个含参分布,使得真实分布与这个含参分布的KL距离最小
下面应该是关于最大似然估计的相互性和方差的渐进收敛性,但是这部分我不会推导,求大佬告知。
贝叶斯推断
没啥好提的,其他地方也有很多资料,稍微提一下选择先验分布的问题
我知道的选择方法有:凭经验直觉选择一个先验,做分层模型(先验里继续套先验,拒绝套娃,从我做起。。),使用共轭先验分布(为了方便计算后验分布,因为先验和后验属于同一类)
而提到共轭先验分布就要提一下指数族,首先介绍一些定义,设
p
(
x
∣
θ
)
p(\bm{x}|\bm{\theta})
p(x∣θ)属于指数分布族,则有
p
(
x
∣
θ
)
=
h
(
x
)
exp
(
ϕ
(
θ
)
⋅
T
(
x
)
−
A
(
θ
)
)
p(\bm{x}|\bm{\theta})=h(\bm{x})\exp(\bm\phi(\bm{\theta})\cdot \bm{T}(\bm{x})-A(\bm{\theta}))
p(x∣θ)=h(x)exp(ϕ(θ)⋅T(x)−A(θ))
其中
T
(
x
)
\bm{T}(\bm{x})
T(x)是充分统计量,设先验分布为
p
(
θ
)
∝
exp
(
ϕ
(
θ
)
⋅
ν
−
η
A
(
θ
)
)
p(\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \nu-\eta A(\bm{\theta}))
p(θ)∝exp(ϕ(θ)⋅ν−ηA(θ))
条件密度函数(没想到更好的词)为
p
(
x
∣
θ
)
∝
exp
(
ϕ
(
θ
)
⋅
∑
i
T
(
x
i
)
−
n
A
(
θ
)
)
p(\bm{x}|\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \sum_iT(\bm{x_i})-nA(\bm{\theta}))
p(x∣θ)∝exp(ϕ(θ)⋅i∑T(xi)−nA(θ))
则后验分布为
p
(
θ
∣
x
)
∝
exp
(
ϕ
(
θ
)
⋅
(
ν
+
∑
i
T
(
x
i
)
)
−
(
n
+
η
)
A
(
θ
)
)
p(\bm{\theta}|\bm{x}) \propto \exp(\phi(\bm{\theta})\cdot (\nu+\sum_iT(\bm{x_i}))-(n+\eta)A(\bm{\theta}))
p(θ∣x)∝exp(ϕ(θ)⋅(ν+i∑T(xi))−(n+η)A(θ))
和先验分布形式相同,便于计算
Markov链
去其他地方看吧,已经有很多完整的这部分的知识讲解了,这里提一些以后可能用到的定理名字:遍历定理(ergodic theorem)。
接下来可能做的事情
使用一些计算方法来计算最大似然估计,贝叶斯推断等