统计计算第一节课 简单介绍和一些准备知识

这是我上的统计计算课讲的主要内容,写在这可以互相交流,有些地方我不是很理解的会标出来,求大佬在留言处表达自己的看法,另外如果有啥问题也可以在留言处留言,如果我看到了会回复

一些模型的科普

线性模型,logistic模型,高斯混合模型

很容易,其他地方也有很多资料,故不写

系统发育树模型

可能开一个新坑写,但在此不写

LDA模型(主题分析)

已经开了一个新坑去写了

一些关于似然函数的东西

为了简单起见,我们假设只有一个样本X,并且X服从参数为 θ \theta θ的分布 p ( x ∣ θ ) p(x|\theta) p(xθ),其中 θ \theta θ是一维的,所以对数似然函数
L ( θ ; x ) = p ( x ∣ θ ) L(\theta;x)=p(x|\theta) L(θ;x)=p(xθ)
定义L关于 θ \theta θ的梯度为score function,即
s ( θ ; x ) = ∂ L ∂ θ s(\theta;x)=\frac{\partial L}{\partial \theta} s(θ;x)=θL
在一些正则性条件下(目的是想让求导和积分可交换,例如指数分布族就满足这些条件),我们有
E ( s ) = 0 ( 推 导 较 为 容 易 ) E(s)=0(推导较为容易) E(s)=0
定义fisher信息量 I ( θ ; x ) I(\theta;x) I(θ;x),即为score function的方差
I ( θ ; x ) = E ( s s T ) I(\theta;x)=E(ss^T) I(θ;x)=E(ssT)
同样在一些正则性条件下,有
I ( θ ; x ) = − E ( ∂ 2 L ∂ θ ∂ θ T ) I(\theta;x)=-E(\frac{\partial^2 L}{\partial \theta \partial \theta^T}) I(θ;x)=E(θθT2L)
直观来看Fisher信息量是似然函数在 θ \theta θ处的曲率,只不过这种曲率取了期望(因为曲率也有分布),而曲率能够反映函数在一点的敏感程度,所以Fisher信息量能够反映建立的模型在某参数处的稳定程度。

下面我们定义KL距离(Kullback-Leibler divergence),并且用此距离来从另一个角度粗略地解释最大似然估计,KL距离是度量两个分布的“距离”,但是没有对称性,所以严格来说不满足经典的距离的定义,假设我们有密度函数p和q,定义
D K L ( q ∣ ∣ p ) = ∫ q ( x ) l n q ( x ) p ( x ) d x D_{KL}(q||p)=\int q(x)ln\frac{q(x)}{p(x)}dx DKL(qp)=q(x)lnp(x)q(x)dx
可以验证KL距离非负,并且当p,q相同时,KL距离为0,下面说明KL距离与最大似然估计的关系,设x的真实分布为 p d a t a ( x ) p_{data}(x) pdata(x),由于实际中不止一个样本,而是有大量的样本(假设有n个),所以由大数定律有
1 n L ( θ ; x ) ≈ E x ∼ p d a t a ( x ) ( l n ( p ( x ∣ θ ) ) ) \frac{1}{n}L(\theta;\bm{x}) \approx E_{x\sim p_{data}(x)}(ln(p(x|\theta))) n1L(θ;x)Expdata(x)(ln(p(xθ)))
设最大似然估计为 θ ∗ \theta^* θ,则
θ ∗ = arg ⁡ max ⁡ θ 1 n L ( θ ; x ) ≈ arg ⁡ max ⁡ θ E x ∼ p d a t a ( x ) ( l n ( p ( x ∣ θ ) ) ) \theta^* = \arg\max \limits_{\theta}\frac{1}{n}L(\theta;\bm{x}) \approx \arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(p(x|\theta))) θ=argθmaxn1L(θ;x)argθmaxExpdata(x)(ln(p(xθ))) = arg ⁡ max ⁡ θ E x ∼ p d a t a ( x ) ( l n ( p ( x ∣ θ ) p d a t a ( x ) ) ) =\arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(\frac{p(x|\theta)}{p_{data}(x)})) =argθmaxExpdata(x)(ln(pdata(x)p(xθ))) = arg ⁡ min ⁡ θ D K L ( p d a t a ( x ) ∥ p ( x ∣ θ ) ) =\arg\min \limits_{\theta} D_{KL}(p_{data}(x)\|p(x|\theta)) =argθminDKL(pdata(x)p(xθ))
也就是说求最大似然估计是求一个含参分布,使得真实分布与这个含参分布的KL距离最小

下面应该是关于最大似然估计的相互性和方差的渐进收敛性,但是这部分我不会推导,求大佬告知。

贝叶斯推断

没啥好提的,其他地方也有很多资料,稍微提一下选择先验分布的问题
我知道的选择方法有:凭经验直觉选择一个先验,做分层模型(先验里继续套先验,拒绝套娃,从我做起。。),使用共轭先验分布(为了方便计算后验分布,因为先验和后验属于同一类)
而提到共轭先验分布就要提一下指数族,首先介绍一些定义,设 p ( x ∣ θ ) p(\bm{x}|\bm{\theta}) p(xθ)属于指数分布族,则有
p ( x ∣ θ ) = h ( x ) exp ⁡ ( ϕ ( θ ) ⋅ T ( x ) − A ( θ ) ) p(\bm{x}|\bm{\theta})=h(\bm{x})\exp(\bm\phi(\bm{\theta})\cdot \bm{T}(\bm{x})-A(\bm{\theta})) p(xθ)=h(x)exp(ϕ(θ)T(x)A(θ))
其中 T ( x ) \bm{T}(\bm{x}) T(x)是充分统计量,设先验分布为
p ( θ ) ∝ exp ⁡ ( ϕ ( θ ) ⋅ ν − η A ( θ ) ) p(\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \nu-\eta A(\bm{\theta})) p(θ)exp(ϕ(θ)νηA(θ))
条件密度函数(没想到更好的词)为
p ( x ∣ θ ) ∝ exp ⁡ ( ϕ ( θ ) ⋅ ∑ i T ( x i ) − n A ( θ ) ) p(\bm{x}|\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \sum_iT(\bm{x_i})-nA(\bm{\theta})) p(xθ)exp(ϕ(θ)iT(xi)nA(θ))
则后验分布为
p ( θ ∣ x ) ∝ exp ⁡ ( ϕ ( θ ) ⋅ ( ν + ∑ i T ( x i ) ) − ( n + η ) A ( θ ) ) p(\bm{\theta}|\bm{x}) \propto \exp(\phi(\bm{\theta})\cdot (\nu+\sum_iT(\bm{x_i}))-(n+\eta)A(\bm{\theta})) p(θx)exp(ϕ(θ)(ν+iT(xi))(n+η)A(θ))
和先验分布形式相同,便于计算

Markov链

去其他地方看吧,已经有很多完整的这部分的知识讲解了,这里提一些以后可能用到的定理名字:遍历定理(ergodic theorem)。

接下来可能做的事情

使用一些计算方法来计算最大似然估计,贝叶斯推断等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值