最大似然估计-伯努利模型

一、最大似然估计原理

1.数理统计基本理解

一个简单的n重伯努利模型(二项分布): 事件A发生的概率为p,不发生的概率为1-p,独立试验n次,事件A发生k次的概率为: $$P(x=k)=C_{n}^{k}p^k(1-p)^{n-k}$$

这是一个概率模型,即已知概率p,求另一些概率,即由因推果

而一个数理统计模型是由果溯因,即求解一下问题: p是多大时,事件A发生k次的概率最大,实际上就是一个求参数问题

此外,看到一组数据,往往甚至不知道该系统的模型是什么。因此在参数估计前,先按照一定的原则选择系统模型,再估计模型中的参数,例如选择最简单的伯努利模型 (下文均以伯努利模型为例)

而最大似然估计可以理解为常见的数理统计模型

2.概率密度函数和概率质量函数

概率质量函数(probability mass function,PMF)离散随机变量在各特定取值上的概率


概率密度函数(Probability Density Function,PDF)是用来描述连续型随机变量的概率分布的函数

概率密度函数是一个非负函数,满足定义域内积分为1

对于一个连续型随机变量X,其概率密度函数为f(x),那么对于给定的任意区间[a, b],该区间内X取值的概率可以通过计算该区间上概率密度函数的积分来得到:$$P(a\le X \le b)=\int_a^bf(x)dx$$

3.最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是统计学中常用的参数估计方法,用于根据已观测到的样本数据,选择使得观测数据出现的概率最大的参数值

这里的参数指概率分布中的某些参数,例如伯努利分布中的概率p

思路即上文提到的由果溯因,从数据分布得到概率分布中的参数

注:样本数据必须是独立同分布的


似然函数(Likelihood Function) L(θ)是一个关于参数θ的函数,表示在已观测到的样本数据下,参数θ的取值使得样本数据出现的概率

似然函数可以直接记为L(θ|x),其中θ为参数,X为观测到的样本数据 换句话说,似然函数就是在样本x的条件下θ的条件概率,即似然(可能性,likelihood)

  • 对于离散型随机变量,似然函数是概率质量函数的乘积: $$L(\theta )=P(X=x_1)\times P(X=x_2)\times ...\times P(X=x_n)$$

  • 对于连续型随机变量,似然函数是概率密度函数的乘积: $$L(\theta )=f(x_1|\theta )\times f(x_2|\theta )\times ...\times f(x_n|\theta )$$

    注意这里得概率密度函数是以θ为条件的条件概率


最大似然估计的目标是找到使得似然函数最大化的参数值

之后可以对似然函数取对数,得到对数似然函数$$log(L(\theta ))$$,即更好处理的加法形式

最后对对数似然函数求导,令导数为0,求得θ值;或者采用如梯度下降法,牛顿下降法,共轭梯度下降法等优化方法,借助其梯度方向迭代得到θ值

总结步骤:

  • 写出数据(随机变量)的概率分布函数 离散型为概率质量函数,连续性为概率密度函数

  • 写出似然函数 带入似然函数定义,即每个样本对应的概率质量/密度函数连成

  • 取对数

    • 求导得0,解出参数值

    • 采用优化方法迭代求解,例如梯度下降法,牛顿下降法,共轭梯度下降法等

注意:无论是对似然函数取对数,还是在优化方法中对其有其他变换操作都是可以的,这是因为本质上并不是求似然函数的最大值,而是求相应的最大值点,即相应的θ值

二、伯努利模型最大似然估计

1.求解过程

事件A发生的概率为p,不发生的概率为1-p,独立重复试验n次

现在已经有数据分布:已知观测到的数据总数为n,其中A事件发生的次数为k,通过最大似然估计法,估计概率分布中参数p的值

  • 带入似然函数的定义(离散型随机变量),得$$L(\theta )=p^k\times (1-p)^{n-k}$$ 即$$p\times p\times...\times p\times (1-p)\times (1-p)\times...\times (1-p)$$ 其中k个p,(n-k)个(1-p)

  • 取对数 $$ln(L(\theta ))=k\times ln(p)+(n-k)\times ln(1-p)$$

  • 求导并令其为0

    $$\frac{k}{p}-\frac{n-k}{1-p}=0$$ ,求解得$$\hat{p}=\frac{k}{n}$$


总结伯努利模型的极大似然估计中的统计学习方法三要素:

  • 模型:伯努利模型是一个二分类模型,它假设每个样本的结果只有两种可能性,即为1或0。在伯努利模型中,要估计的参数是结果为1的概率p

  • 策略:采用极大似然估计法,策略是选择使得观测数据出现的概率最大的参数,即最大化似然函数

  • 算法:伯努利模型的极大似然估计可以通过最大化似然函数来实现。最大似然估计的算法步骤包括:写出似然函数,取对数似然函数,求导数,令导数等于0,解得参数的估计值

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值