数学与编程——概率论与数理统计

  • D(x)=E{[xE(x)]2} :相对于平均数差距的平方的期望;
  • 数理统计一词的理解:mathematical stats,也即用数学的观点审视统计,为什么没有数理概率,因为概率本身即为数学,而对于统计,random variable 的性质并不全然了解,所以数理统计在一些书里又被称作:stats in inference(统计推论,已知 ⇒ 未知)
    • 概率与统计的中心问题,都是random variable,

PMF与PDF

PMF:probability mass function,概率质量函数,是离散型随机变量在各特定取值上的概率。与概率密度函数(PDF:probability density function)的不同之处在于:概率质量函数是对离散型随机变量定义的,本身代表该值的概率;概率密度函数是针对连续型随机变量定义的,本身不是概率(连续型随机变量单点测度为0),只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。

notation

假设 X 是一个定义在可数样本空间S上的离散型随机变量 SR ,则其概率质量函数PMF为:

fX(x)={Pr(X=x),0,xSxRS

注意这在所有实数上,包括那些 X 不可能等于的实数值上,都定义了pmf,只不过在这些X不可能取的实数值上, fX(x) 取值为0( xRS,Pr(X=x)=0 )。

离散型随机变量概率质量函数(pmf)的不连续性决定了其累积分布函数(cdf)也不连续。

共轭先验(conjugate prior)

所谓共轭(conjugate),描述刻画的是两者之间的关系,单独的事物不构成共轭,举个通俗的例子,兄弟这一概念,只能是两者才能构成兄弟。所以,我们讲这两个人是兄弟关系,A是B的兄弟这两个分布成共轭分布关系,A是B的共轭分布

p(θ|X)=p(θ)p(X|θ)p(x)

  • p(X|θ) :似然(likelihood)

  • p(θ) :先验(prior)

  • p(X) :归一化常数(normalizing constant)

我们定义:如果先验分布( p(θ) )和似然函数( p(X|θ) )可以使得先验分布( p(θ) )和后验分布( p(θ|X) )有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那么就称先验分布与似然函数是共轭的(成Beta分布与二项分布是共轭的)。

几个常见的先验分布与其共轭分布

先验分布共轭分布
伯努利分布 beta distribution
Multinomial Dirichlet Distribution
Gaussian, Given variance, mean unknown Gaussian Distribution
Gaussian, Given mean, variance unknown Gamma Distribution
Gaussian, both mean and variance unknown Gaussian-Gamma Distribution

最大似然估计(MLE)

首先来看,大名鼎鼎的贝叶斯公式:

p(θ|X)=p(θ)p(X|θ)p(X)

可将 θ 看成欲估计的分布的参数, X 表示样本,p(X|θ)则表示似然。

现给定样本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\} D={x1,x2,,xN} ,似然函数为:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

p(D|θ)=n=1Np(xn|θ)

为便于计算,再将其转换为对数似然函数形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)
lnp(D|θ)=n=1Nlnp(xn|θ)

我们不妨以伯努利分布为例,利用最大似然估计的方式计算其分布的参数(p p ),伯努利分布其概率密度函数(pdf)为:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

fX(x)=px(1p)1x=p,q1p,0,x=1,x=0,otherwise

整个样本集的对数似然函数为:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

lnp(D|θ)=n=1Nlnp(xn|θ)=n=1Nln(θxn(1θ)1xn)=n=1Nxnlnθ+(1xn)ln(1θ)

等式两边对\theta θ 求导:
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

ln(D|θ)θ=Nn=1xnθN1θ+Nn=1xn1θ

令其为0,得:

θml=Nn=1xnN

Beta分布

f(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1=1B(a,b)μa1(1μ)b1

Beta 分布的峰值在 a1b+a2 处取得。其中 Γ(x)0ux1eudu 有如下性质:

Γ(x+1)=xΓ(x)Γ(1)=1andΓ(n+1)=n!

我们来看当先验分布为 Beta 分布时的后验分布:
p(θ)=1B(a,b)θa1(1θ)b1p(X|θ)=(nk)θk(1θ)nkp(θ|X)=1B(a+k,b+nk)θa+k1(1θ)b+nk1

对应于python中的math.gamma()及matlab中的gamma()函数(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b))。

条件概率(conditional probability)

P(X|Y)

读作: P of X given Y ,下划线读作given
X:所关心事件
Y :条件(观察到的,已发生的事件),conditional

条件概率的计算

仍然从样本空间(sample space)的角度出发。此时我们需要定义新的样本空间(给定条件之下的样本空间)。所以,所谓条件(conditional),本质是对样本空间的进一步收缩,或者叫求其子空间。

比如一个人答题,有A,B,C,D四个选项,在答题者对题目一无所知的情况下,他答对的概率自然就是 14 ,而是如果具备一定的知识,排除了 A,C 两个错误选项,此时他答对的概率简单计算就增加到了 12

本质是样本空间从 S={A,B,C,D} ,变为了 S={B,D}
新样本空间下 P(A|A/C)=0,P(C|A/C)=0 ,归纳出来,也即某实验结果(outcome, oi )与某条件 Y 不相交,则:

P(oi|Y)=0

最后我们得到条件概率的计算公式:

P(oi|Y)=P(oi)P(o1)+P(o2)++P(on)=P(oi)P(Y)Y={o1,o2,,on}

考虑某事件 X={o1,o2,q1,q2} ,已知条件 Y={o1,o2,o3} 发生了,则:

P(X|Y)=P(o1|Y)+P(o2|Y)+0+0=P(o1)P(Y)+P(o2)P(Y)=P(XY)P(Y)

条件概率与贝叶斯公式

条件概率:

P(X|Y)=P(XY)P(Y)

贝叶斯公式:

P(X|Y)=P(X)P(Y|X)P(Y)

其实是可从条件概率推导贝叶斯公式的:

P(A|B)=P(B|A)=P(A|B)P(B)===P(B|A)=P(AB)P(B)P(AB)P(A)P(AB)P(B)P(B)P(AB)P(A)P(B|A)P(A|B)P(B)P(A)

证明: P(B,p|D)=P(B|p,D)P(p|D)

P(B,p|D)====P(B,p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p|D)

References

[1] 概率质量函数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值