一、最大似然估计原理
1.数理统计基本理解
一个简单的n重伯努利模型(二项分布): 事件A发生的概率为p,不发生的概率为1-p,独立试验n次,事件A发生k次的概率为: $$P(x=k)=C_{n}^{k}p^k(1-p)^{n-k}$$
这是一个概率模型,即已知概率p,求另一些概率,即由因推果
而一个数理统计模型是由果溯因,即求解一下问题: p是多大时,事件A发生k次的概率最大,实际上就是一个求参数问题
此外,看到一组数据,往往甚至不知道该系统的模型是什么。因此在参数估计前,先按照一定的原则选择系统模型,再估计模型中的参数,例如选择最简单的伯努利模型 (下文均以伯努利模型为例)
而最大似然估计可以理解为常见的数理统计模型
2.概率密度函数和概率质量函数
概率质量函数(probability mass function,PMF)是离散随机变量在各特定取值上的概率
概率密度函数(Probability Density Function,PDF)是用来描述连续型随机变量的概率分布的函数
概率密度函数是一个非负函数,满足定义域内积分为1
对于一个连续型随机变量X,其概率密度函数为f(x),那么对于给定的任意区间[a, b],该区间内X取值的概率可以通过计算该区间上概率密度函数的积分来得到:$$P(a\le X \le b)=\int_a^bf(x)dx$$
3.最大似然估计
最大似然估计(Maximum Likelihood Estimation,MLE)是统计学中常用的参数估计方法,用于根据已观测到的样本数据,选择使得观测数据出现的概率最大的参数值
这里的参数指概率分布中的某些参数,例如伯努利分布中的概率p
思路即上文提到的由果溯因,从数据分布得到概率分布中的参数
注:样本数据必须是独立同分布的
似然函数(Likelihood Function) L(θ)是一个关于参数θ的函数,表示在已观测到的样本数据下,参数θ的取值使得样本数据出现的概率
似然函数可以直接记为L(θ|x),其中θ为参数,X为观测到的样本数据 换句话说,似然函数就是在样本x的条件下θ的条件概率,即似然(可能性,likelihood)
-
对于离散型随机变量,似然函数是概率质量函数的乘积: $$L(\theta )=P(X=x_1)\times P(X=x_2)\times ...\times P(X=x_n)$$
-
对于连续型随机变量,似然函数是概率密度函数的乘积: $$L(\theta )=f(x_1|\theta )\times f(x_2|\theta )\times ...\times f(x_n|\theta )$$
注意这里得概率密度函数是以θ为条件的条件概率
最大似然估计的目标是找到使得似然函数最大化的参数值
之后可以对似然函数取对数,得到对数似然函数$$log(L(\theta ))$$,即更好处理的加法形式
最后对对数似然函数求导,令导数为0,求得θ值;或者采用如梯度下降法,牛顿下降法,共轭梯度下降法等优化方法,借助其梯度方向迭代得到θ值
总结步骤:
-
写出数据(随机变量)的概率分布函数 离散型为概率质量函数,连续性为概率密度函数
-
写出似然函数 带入似然函数定义,即每个样本对应的概率质量/密度函数连成
-
取对数
-
-
求导得0,解出参数值
-
采用优化方法迭代求解,例如梯度下降法,牛顿下降法,共轭梯度下降法等
-
注意:无论是对似然函数取对数,还是在优化方法中对其有其他变换操作都是可以的,这是因为本质上并不是求似然函数的最大值,而是求相应的最大值点,即相应的θ值
二、伯努利模型最大似然估计
1.求解过程
事件A发生的概率为p,不发生的概率为1-p,独立重复试验n次
现在已经有数据分布:已知观测到的数据总数为n,其中A事件发生的次数为k,通过最大似然估计法,估计概率分布中参数p的值
-
带入似然函数的定义(离散型随机变量),得$$L(\theta )=p^k\times (1-p)^{n-k}$$ 即$$p\times p\times...\times p\times (1-p)\times (1-p)\times...\times (1-p)$$ 其中k个p,(n-k)个(1-p)
-
取对数 $$ln(L(\theta ))=k\times ln(p)+(n-k)\times ln(1-p)$$
-
求导并令其为0
$$\frac{k}{p}-\frac{n-k}{1-p}=0$$ ,求解得$$\hat{p}=\frac{k}{n}$$
总结伯努利模型的极大似然估计中的统计学习方法三要素:
-
模型:伯努利模型是一个二分类模型,它假设每个样本的结果只有两种可能性,即为1或0。在伯努利模型中,要估计的参数是结果为1的概率p
-
策略:采用极大似然估计法,策略是选择使得观测数据出现的概率最大的参数,即最大化似然函数
-
算法:伯努利模型的极大似然估计可以通过最大化似然函数来实现。最大似然估计的算法步骤包括:写出似然函数,取对数似然函数,求导数,令导数等于0,解得参数的估计值