11-概率分布

密度估计:给定有限次观测 x1,…,xNx1,…,xN 后,对随机变量 xx 的概率分布 p(x)p(x) 建模。

二元变量

一个二元随机变量 x∈{0,1}概率。 x=1x=1 的概率被记作参数μμ:

p(x=1|μ)=μ

其中 0≤μ≤10≤μ≤1 ,那么就得到 p(x=0|μ)=1−μp(x=0|μ)=1−μ 。 xx 的概率分布就可以写成:

Bern(x|μ)=μx(1μ)1x

叫做伯努利分布(Bernoulli distribution)。

均值和方差:

E[x]var[x]==μμ(1μ)

现在假设 xx 的观察数据集 D={x1,…xn}D={x1,…xn} 。假设观测值是独立的从 p(x|μ)p(x|μ) 中抽取,那么就可以构造关于 μμ 的似然函数:

p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn

率学的观点中,可以通过最大化似然函数来估计 μμ 的值,或等价的,最大化对数似然函数。在伯努利分布的情形下,对数似然函数为:

lnp(D|μ)=n=1Nlnp(xn|μ)=n=1N{xnlnμ+(1xn)ln(1μ)}

对数似然函数只通过 ∑nxn∑nxn 依赖于 NN 次观测值 xnxn 。对 lnp(D|μ)ln⁡p(D|μ) 关于 μμ 微分并使它等于0,就得到最大似然估计:

μML=1Nn=1Nxn

我们可以计算出数据集大小为 NN 的具有 mm 个 x=1x=1 的观测值的概率分布。这被称为二项式分布(binomial distribution),根据似然函数得到它正比于 μm(1−μ)N−mμm(1−μ)N−m 。为了得到标准化的系数,在 NN 次抛硬币的过程中,需要把所有出现正面的次数加起来得到 mm ,所以二项式分布可以写成:

Bin(m|N,μ)=(Nm)μm(1μ)Nm

其中 (Nm) 表示从 NN 个相同的物体中选出 mm 个的方式的次数。
Bin(m|N,μ)=(Nm)μm(1μ)Nm

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值