最大似然估计-伯努利模型_伯努利模型的极大似然估计-CSDN博客

本文链接：https://blog.csdn.net/Jason_t1/article/details/131767642

一个简单的n重伯努利模型(二项分布)：事件A发生的概率为p，不发生的概率为1-p，独立试验n次，事件A发生k次的概率为： $$P(x=k)=C_{n}^{k}p^k(1-p)^{n-k}$$

这是一个概率模型，即已知概率p，求另一些概率，即由因推果

而一个数理统计模型是由果溯因，即求解一下问题： p是多大时，事件A发生k次的概率最大，实际上就是一个求参数问题

此外，看到一组数据，往往甚至不知道该系统的模型是什么。因此在参数估计前，先按照一定的原则选择系统模型，再估计模型中的参数，例如选择最简单的伯努利模型（下文均以伯努利模型为例）

而最大似然估计可以理解为常见的数理统计模型

概率质量函数(probability mass function，PMF)是离散随机变量在各特定取值上的概率

概率密度函数(Probability Density Function，PDF)是用来描述连续型随机变量的概率分布的函数

概率密度函数是一个非负函数，满足定义域内积分为1

对于一个连续型随机变量X，其概率密度函数为f(x)，那么对于给定的任意区间[a, b]，该区间内X取值的概率可以通过计算该区间上概率密度函数的积分来得到：$$P(a\le X \le b）=\int_a^bf(x)dx$$

最大似然估计(Maximum Likelihood Estimation，MLE)是统计学中常用的参数估计方法，用于根据已观测到的样本数据，选择使得观测数据出现的概率最大的参数值

这里的参数指概率分布中的某些参数，例如伯努利分布中的概率p

思路即上文提到的由果溯因，从数据分布得到概率分布中的参数

注：样本数据必须是独立同分布的

似然函数(Likelihood Function) L(θ)是一个关于参数θ的函数，表示在已观测到的样本数据下，参数θ的取值使得样本数据出现的概率

似然函数可以直接记为L(θ|x)，其中θ为参数，X为观测到的样本数据换句话说，似然函数就是在样本x的条件下θ的条件概率，即似然(可能性，likelihood)

对于离散型随机变量，似然函数是概率质量函数的乘积： $$L(\theta )=P(X=x_1)\times P(X=x_2)\times ...\times P(X=x_n)$$
对于连续型随机变量，似然函数是概率密度函数的乘积： $$L(\theta )=f(x_1|\theta )\times f(x_2|\theta )\times ...\times f(x_n|\theta )$$

注意这里得概率密度函数是以θ为条件的条件概率

最大似然估计的目标是找到使得似然函数最大化的参数值

之后可以对似然函数取对数，得到对数似然函数$$log(L(\theta ))$$，即更好处理的加法形式

最后对对数似然函数求导，令导数为0，求得θ值；或者采用如梯度下降法，牛顿下降法，共轭梯度下降法等优化方法，借助其梯度方向迭代得到θ值

总结步骤：

注意：无论是对似然函数取对数，还是在优化方法中对其有其他变换操作都是可以的，这是因为本质上并不是求似然函数的最大值，而是求相应的最大值点，即相应的θ值

事件A发生的概率为p，不发生的概率为1-p，独立重复试验n次

现在已经有数据分布：已知观测到的数据总数为n，其中A事件发生的次数为k，通过最大似然估计法，估计概率分布中参数p的值

带入似然函数的定义(离散型随机变量)，得$$L(\theta )=p^k\times (1-p)^{n-k}$$ 即$$p\times p\times...\times p\times (1-p)\times (1-p)\times...\times (1-p)$$ 其中k个p，(n-k)个(1-p)
取对数 $$ln(L(\theta ))=k\times ln(p)+(n-k)\times ln(1-p)$$
求导并令其为0

$$\frac{k}{p}-\frac{n-k}{1-p}=0$$ ，求解得$$\hat{p}=\frac{k}{n}$$

总结伯努利模型的极大似然估计中的统计学习方法三要素：