极大似然估计及其应用

最新推荐文章于 2024-10-01 11:50:53 发布

Donreen

最新推荐文章于 2024-10-01 11:50:53 发布

阅读量4.9k

点赞数 3

分类专栏：机器学习入门文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/CarryLvan/article/details/109208151

版权

机器学习入门专栏收录该内容

19 篇文章 5 订阅

订阅专栏

本文介绍了极大似然估计的概念及其在机器学习中的应用，包括离散型和连续型变量的似然函数，以及如何通过极大似然估计求解参数。以逻辑回归和朴素贝叶斯分类器为例，展示了极大似然估计在模型参数估计中的作用。通过实例解释了如何通过极大似然估计估计概率分布的参数，并讨论了估计的可靠性问题。

摘要由CSDN通过智能技术生成

极大似然估计及其应用

引言：最近在温习机器学习相关算法以及课堂上老师最近也都提到了极大似然估计，然而博主早已忘得差不多了，所以重新学习顺便记录下。
极大似然估计的主要作用是：当我们不知道样本的分布时我们可以通过假设样本服从某种概率分布，然后结合训练样本对其概率分布中的未知参数进行估计。似然在西瓜书中是likehood，翻译过来就是可能性、概率的意思。
本文主要参考了西瓜书和《概率论与统计学习（第二版）》。

1.似然函数

（1）离散型变量的似然函数
定义：设总体X是离散型随机变量，分布律为 $P(X=x)=p(x,\theta)$ ，其中 $\theta$ 是未知参数，当样本 $X_1,X_2,...,X_n$ 得到一组观测值 $x_1,x_2,...,x_n$ ，有样本的独立同分布性，记样本取得这组观测值的概率为：
$P(X_1=x_1,X_2=x_2,...,X_n=x_n)\\=P(X_1=x_1)P(X_2=x_2)...P(X_n=x_n)\\=\prod_{i=1}^{n}p(x_i,\theta)=L(\theta)$
称 $L(\theta)$ 为似然函数（对于给定的观测值 $x_1,x_2,...,x_n$ 它是未知参数 $\theta$ 的函数）

（2）连续变量的似然函数
当 $X$ 是连续变量时，其概率密度函数为 $f(x,\theta)$ ，其中 $\theta$ 是未知参数。因为随机变量 $X_i$ 落在 $x_i$ 的邻域（设长度为 $\Delta x_i$ ）内的概率近似为 $f(x_i,\theta)\Delta x_i, i=1,2,...,n$ ，则样本 $X_1,X_2,...,X_n$ 落在观测值 $x_1,x_2,...,x_n$ 邻域的概率近似为 $\prod_{i=1}^{n}f(x_i,\theta)\Delta x_i$ , 因此似然函数 $L(\theta)=\prod_{i=1}^{n}f(x_i,\theta)\Delta x_i$ 。

（3）例子
设一袋中装有黑白两种球，设p为从袋中随机摸得一个白球的概率，写出p的似然函数并对参数p进行估计。

首先这里是离散型变量，所以可以令
$X=\begin{cases} 1,&\text{取得白球} \\0,&\text{取得黑球}\end{cases}$
可以发现X服从0-1二项分布，即X~B(1,p)，这里就相当于一个先验知识，我们知道了随机变量的概率分布形式。

为了估计参数p，做有放回的摸球10次，其结果可用随机变量 $X_i$ 表示：
$X_i=\begin{cases} 1,&\text{第i次取得白球} \\0,&\text{第i次取得黑球}\end{cases}$
假设样本 $X_1,X_2,...,X_{10}$ 的观测值为 $x_1,x_2,...x_n)=(1,0,1,0,0,0,1,0,0,0)$ ，则其似然函数为:
$L(p)=P(X_1=1,X_2=0,X_3=1,X_4=0,...,X_{10}=0)\\=p^3(1-p)^7$

至于如何估计参数p，则需要引出极大似然估计。

2.极大似然估计

极大似然估计的思想是：在随机试验中有所干个可能结果，如果一次实验中某一结果出现了，根据小概率事件原理，我们认为这一结果出现的概率较大，从而可以认为这一结果是所有可能结果中出现概率最大的一个。因此对于我们的似然函数 $L(\theta)$ 就是要找到一个 $\hat{\theta}$ 使得观测值的概率最大，也就是 ${argmax}_{\theta}L(\theta)$ 。

因此对于上面摸球的例子我们估计参数p的做法就是求 $\frac{dL(p)}{dp}=0$ ，最后求得p=0.3。

然而由于似然函数中的连乘易造成下溢，因此通常使用对数似然，即
$LL(\theta)=log \prod_{i=1}^{n}p(x_i,\theta)\\=\sum_{i=1}^{n}log (p(x_i,\theta))$
然后求解
$\hat{\theta}={argmax}_{\theta}LL(\theta)$

3.极大似然估计在机器学习中的应用

（1）逻辑回归
逻辑回归的模型为： $y=\frac{1}{1+e^{-(w^Tx+b)}}$ ，设 $p_1:p(y=1)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}, p_0:p(y=0)=\frac{1}{1+e^{w^Tx+b}}$ ，其中 $p_1和p_0$ 是关于未知参数 $w, b$ 的概率分布，其具体形式可以通过对逻辑回归模型两边同取对数求得。然后通过对数极大似然估计法对未知参数进行估计得：
$LL(w,b)=log(\prod_{i=1}^mp(y_i))\\=\sum_{i=1}^mlog(y_ip_1+(1-y_i)p_0)$

然后利用梯度法求解极值即可。

（2）朴素贝叶斯分类器
朴素贝叶斯分类器的基本原理： $p(c|x)=\frac{p(c)}{p(x)}\prod_{i=1}^np(x^{(i)}|c)$ ，其中c是类别，x是训练样本， $x^{(i)}$ 是样本在第i个属性上的取值，通过训练样本x预测类别c其中 $p (c) 和 p (x)$ 比较好求，而 $p(x^{(i)}|c)$ 可以通过极大似然估计的方法对其概率分布进行估计，首先假设p(x|c)是服从关于参数 $\theta$ 的概率分布，即 $p(x,\theta)$ ，则其对数似然函数为：
$LL(\theta)=\sum_{i=1}^mp(x_i,\theta)$
然后求解 $\hat{\theta}={argmax}_{\theta}LL(\theta)$ 得到参数。但是使用极大似然估计来估计类条件概率有以下困难：