模式识别之极大似然估计

最新推荐文章于 2022-10-29 15:39:53 发布

学为好人

最新推荐文章于 2022-10-29 15:39:53 发布

阅读量1.1k

点赞数

分类专栏：道法术器文章标签：极大似然估计模式识别

本文链接：https://blog.csdn.net/wjbwjbwjbwjb/article/details/79337685

版权

道法术器专栏收录该内容

4 篇文章 0 订阅

订阅专栏

引入

如果已知先验概率 $p(w_i)$ 和类条件概率密度 $p(x|w_i)$ ，则可以构造一个贝叶斯分类器
$p(w_i|x)=\frac{p(x|w_i)p(w_i)}{\sum\limits_{i=1}^{K} p(x|w_i)p(w_i)}$ 。

但是，在大多数实际问题中，生成数据的类条件概率密度分布（一般会假设为高斯分布等）的参数通常是未知的，因此，就需要有一些手段从样本数据中推断出这些参数。

这就产生了参数估计这一任务，即使用样本数据（训练数据）来估计未知的概率分布的参数。

参数估计方法分类

有监督的参数估计

己知概率分布的具体形式以及样本数据所属的类别；

无监督的参数估计

己知概率分布的具体形式，但是不知道样本数据所属的类别；

非参数估计

不知道概率分布的具体形式，但是己知样本数据所属的类别。

在有监督参数估计方法中，常用的两种方法：

极大似然估计

假定待估计的参数为某个固定值，估计准则为估计的参数使得样本集合的似然函数取最大值；

贝叶斯估计

假定待估计的参数为随机变量，估计准则为估计的参数使得平均风险达到最小值。

本文主要针对极大似然估计进行讲解。

问题

原问题

对于模式识别（分类）而言，假设共有 $C$ 类且每一类的类条件概率密度分布都符合正态分布
$p(x|{{w}_{i}})\propto N({{\mu }_{i}},{{\sum }_{i}})$ ，
将带估计的参数矢量记为 $\theta_i$ ，则
${{\theta }_{i}}=\left( \begin{matrix} {{\mu }_{i}}， {{\sum }_{i}} \end{matrix} \right)^T$ 。
为了强调类条件概率密度函数依赖于参数矢量，将其写为以下形式：
$p(x|{{w}_{i}},{{\theta }_{i}})$ ，
假定属于某个类别的训练样本只对本类别的参数估计提供信息，这样就能分别独立地考虑每个类别的参数估计。

子问题

己知样本集合 $D={x_1,x_2,...,x_n}$ ，其中每一个样本都是独立地根据已知形式的概率密度函数 $p(x|\theta)$ 抽取得到的，要求使用这些样本，估计概率密度函数中的参数矢量 $\theta$ 的值。
由于假设样本间相互独立，故
$p(D|\theta )=\prod\limits_{k=1}^{n}{p({{x}_{k}}|\theta )}$ 。
又由于样本集 $D$ 已知，故 $p(D|\theta)$ 是关于 $\theta$ 的函数，也称为样本集 $D$ 下的似然函数。

参数 $\theta$ 的极大似然估计是使 $p(D|\theta)$ 达到最大的参数矢量 $\hat{\theta }$ 。

极大似然

定义对数似然如下
$L(\theta )\triangleq \ln p(D|\theta )$ ，
此时问题转变为求取使对数似然函数 $L(\theta )$ 达到最大的参数矢量
$\hat{\theta }=\arg \underset{\theta }{\mathop{\max }}\,L(\theta )$ 。

求解

令 ${{\theta }_{i}}={{({{\theta }_{1}},{{\theta }_{2}},...,{{\theta }_{p}})}^{T}}$ 且梯度算子 ${{\nabla }_{\theta }}$ 为
${{\nabla }_{\theta }}={{[\frac{\partial }{\partial {{\theta }_{1}}},\frac{\partial }{\partial {{\theta }_{2}}},...,\frac{\partial }{\partial {{\theta }_{p}}}]}^{T}}$ ，
对于
$L(\theta )\triangleq \ln p(D|\theta )=\sum\limits_{k=1}^{n}{\ln p({{x}_{k}}|\theta )}$
则
${{\nabla }_{\theta }}L=\sum\limits_{k=1}^{n}{{{\nabla }_{\theta }}\ln p({{x}_{k}}|\theta )}$ 。
因此，求解极大似然估计值的必要条件为方程组：
${{\nabla }_{\theta }}L=0$

示例

例1：假设训练样本符合多元正态分布，且协方差矩阵已知，需估计均值矢量。
极大似然估计目标
$L(\mu )\triangleq \ln p(D|\mu )=\ln \prod\limits_{k=1}^{n}{p({{x}_{k}}|\mu )}\text{=}\sum\limits_{k=1}^{n}{p({{x}_{k}}|\mu )}$
展开得：
$L(\mu)\text{=}\sum\limits_{k=1}^{n}{\left( -\frac{1}{2}\ln \left[ {{(2\pi )}^{d}}|\sum{|} \right]-\frac{1}{2}{{({{x}_{k}}-\mu )}^{T}}{{\sum }^{-1}}({{x}_{k}}-\mu ) \right)}$ 。
对目标函数求导等于0可得：
${{\nabla }_{\mu }}L=\sum\limits_{k=1}^{n}{{{\sum }^{-1}}({{x}_{k}}-\mu )=}0$
计算可得：
$\hat{\mu }=\frac{1}{n}\sum\limits_{k=1}^{n}{{{x}_{k}}}$
对正态分布均值的极大似然估计就是对全体样本取平均。

例2：对于均值和方差均未知的情况，考虑单变量情况，设 $\theta=(\theta_1,\theta_2)^T=(\mu,\sigma^2)^T$ 。

极大似然估计目标
$L(\theta)\text{=}\sum\limits_{k=1}^{n}{\left( -\frac{1}{2}\ln {{(2\pi\theta_2 )}}-\frac{1}{2\theta_2}{{({{x}_{k}}-\theta_1 )}^{2}} \right)}$ 。
对目标函数求导等于0可得：
${{\nabla }_{\theta_2 }}L=\sum\limits_{k=1}^{n}{\frac{1}{\hat{\theta_2}}({{x}_{k}}-\theta_1 )=}0$
${{\nabla }_{\theta_1 }}L=-\sum\limits_{k=1}^{n}{\frac{1}{\hat{\theta_2}}+\sum\limits_{k=1}^{n}\frac{({{x}_{k}}-\hat{\theta_1 })^2}{\hat{\theta_2}^2}=}0$
计算可得：
$\hat{\mu }=\frac{1}{n}\sum\limits_{k=1}^{n}{{{x}_{k}}}$
${{\hat{\sigma }}^{2}}=\frac{1}{n}\sum\limits_{k=1}^{n}{{{({{x}_{k}}-\hat{\mu })}^{2}}}$
。
扩展可得，当正态分布为多元是，极大似然估计的结果为：
$\hat{\mu }=\frac{1}{n}\sum\limits_{k=1}^{n}{{{x}_{k}}}$
${{\hat{\sum }}}=\frac{1}{n}\sum\limits_{k=1}^{n}{{{({{x}_{k}}-\hat{\mu })}{({{x}_{k}}-\hat{\mu })}^T}}$

实现

% 本示例用于最大似然估计的教学示例 % 描述：1）生成过程：根据给定参数的正态分布生成二维数据点样本 % ······2）估计过程：根据最大似然估计算法估计参数值 % 设置随机数种子，使程序可重复 rng(10); % 生成过程 NDATA = 1000; % 数据点数目 MU = [1,2]'; % 分布均值 COV = [0.5,0;0,0.8]'; % 协方差：假设各维度相互独立 SIGMA = diag(COV); % 方差：假设各维度相互独立 DATA = zeros(2,NDATA); for k = 1 : NDATA % 依次生成数据 DATA(:,k) = normrnd(MU,SIGMA); end disp('均值：'); disp(MU); % disp('协方差：'); % disp(COV); disp('方差：'); disp(SIGMA); scatter(DATA(1,:),DATA(2,:)); % 绘制样本点 box on; % 估计过程 MU_EST = mean(DATA,2); % 计算均值 DATA_DIF = bsxfun(@minus,DATA,MU_EST); COV_SQUARE = zeros(2,2,NDATA); for k = 1 : NDATA % 计算每个样本的协方差 COV_SQUARE(:,:,k) = DATA_DIF(:,k)*DATA_DIF(:,k)'; end COV_SQUARE_EST = mean(COV_SQUARE,3); SIGMA_SQUARE_EST = diag(COV_SQUARE_EST); disp('估计均值：'); disp(MU_EST); % disp('估计协方差：'); % disp(sqrt(COV_SQUARE_EST)); disp('估计方差：'); disp(sqrt(SIGMA_SQUARE_EST)); % 注：系统自带的参数估计，假设数据各维度相互独立 [mu,s] = normfit(DATA');

运行上面的代码，可显示数据如下图：

计算输出如下：

均值： 1 2 方差： 0.5000 0.8000 估计均值： 1.0115 1.9805 估计方差： 0.5072 0.7990

优惠劵

学为好人

关注关注

0
点赞

踩

2

收藏

觉得还不错? 一键收藏

0
评论

模式识别之极大似然估计

引入如果已知先验概率p(wi)p(wi)p(w_i)和类条件概率密度p(x|wi)p(x|wi)p(x|w_i)，则可以构造一个贝叶斯分类器 p(wi|x)=p(x|wi)p(wi)∑i=1Kp(x|wi)p(wi)p(wi|x)=p(x|wi)p(wi)∑i=1Kp(x|wi)p(wi)p(w_i|x)=\frac{p(x|w_i)p(w_i)}{\sum\limits_{i=1}^{K}...
复制链接

扫一扫

专栏目录

最大似然方法

09-21

最大似然方法，亲测有效，对于正在学习最大似然相关方面的同学很有帮助，欢迎下载

【概率论】极大似然估计和最大后验估计

Mr_health的博客

07-23 9024

目录 1.概率模型和非概率模型 1.1 非概率模型 1.1 概率模型 2 频率学派和贝叶斯学派 2.1 频率学派 2.2 贝叶斯学派 3. 极大似然估计 3.1 什么是极大似然估计 3.2 极大似然原理及数学表示 3.3 极大似然估计法(Maximum Likelihood Estimation,MLE) 3.4 极大似然估计法求估计值的步骤 3.5 例题 1.概率模型和非概率模型要介绍极大似然估计和最大后验估计，就要先从概率模型和非概率模型说起。极大似然估计和最大后验估计都.

参与评论您还未登录，请先登录后发表或查看评论

极大似然估计（加实例推导）

Daniel_mc的博客

04-14 1万+

极大似然估计：已知X是离散型随机变量，可能的取值有0，1, 2。对应概率为：这里X更具体解释的话，可以理解为抛两次硬币，正面记1，反面记0，结果累加，只不过这里的硬币特殊，抛到反面的概率是θ。这时对X抽取容量为10的样本，其中有2个0、5个1、3个2，求θ的最大似然估计值。套用大佬的总结，最大似然估计法的步骤： 1. 写出似然函数； 2. 对似然函数取对数，并整理...

极大似然估计详解

热门推荐

知行流浪

05-28 38万+

极大似然估计 以前多次接触过极大似然估计，但一直都不太明白到底什么原理，最近在看贝叶斯分类，对极大似然估计有了新的认识，总结如下：贝叶斯决策首先来看贝叶斯分类，我们都知道经典的贝叶斯公式：其中：p(w)：为先验概率，表示每种类别分布的概率；：类条件概率，表示在某种类别前提下，某事发生的概率；而为后验概率，表示某事发生

极大似然估计的数学意义及例题

Nancy_fairy的博客

10-14 1万+

最大似然估计是一种用来在给定观察数据下估计所需参数的技术。比如，如果已知人口分布遵从正太分布，但是均值和方差未知， MLE（maximum likelihood estimation）可以利用有限的样本来估计这些参数。 1.正规定义从分布f0f_0f0中引出nnn个独立同分布的观察x1,x2,...xnx_1,x_2,...x_nx1,x2,...xn，其中f0f_0f0是从一族依赖于...

两个例题带你搞懂极大似然估计-猛男技术控

小白不白

10-29 1824

比如箱子里有100个球共两种颜色，其中一种颜色有95个，现在摸出一个球是黑色，那么是黑球95个还是白球95个呢？具体哪个多当然是不能肯定的，但我们可以知道，大概率是黑球多。极大似然说人话就是最大概率看起来是这个样子。极大似然估计的目的是利用已知样本，反推最有可能导致出现这样结果的参数值是多少。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。数学解释：设总体的概率密度函数

最大似然估计.rar

10-30

基于MATLAB的模式识别的参数估计的最大似然估计，处理水环境分类问题，共分为5类，最后利用贝叶斯决策得出五类总的识别率。

moshishibie.zip_最大似然方法_模式识别_贝叶斯_贝叶斯估计_贝叶斯决策

07-13

2.采用最大似然估计方法，求男女生身高以及体重分布的参数； 3.采用贝叶斯估计方法，求男女生身高以及体重分布的参数（注明自己选定的参数情况）； 4.采用最小错误率贝叶斯决策，画出类别判定的决策面。并判断某样本...

极大似然估计在小电流接地选线中的应用

05-31

文章将极大似然估计原理引入小电流接地故障选线,建立故障选线零序网络模型,利用极大似然估计良好的辨识特性识别线路参数,通过比较故障线路和非故障线路中的电容参数是否符合模型选出故障线路。仿真结果表明,该方法...

模式识别复习笔记【湘潭大学】

12-10

湘大研一上，模式识别考试资料

《模式识别》(边肇祺)习题答案.pdf

07-09

边肇祺等人编写的《模式识别》习题答案，格式：pdf。

模式识别非参数估计方法PPT

12-22

模式识别讲解非参数估计

[Machine Learning] 极大似然估计（Maximum Likelihood Estimate）

Oh_MyBug的博客

02-16 581

极大似然估计 直观想法（举个例子）经典例题：有两个外形完全相同地箱子，甲箱中有99只白球，1只黑球；乙箱中有99只黑球，1只白球。一次试验取出一球，结果取出的是黑球。问：黑球从哪个箱子中取出？人们的第一印象就是：“此黑球最像是从乙箱中取出地”，这个推断符合人们的经验事实。“最像”就是“最大似然”之意，这种想法常称为“最大似然原理”（maximum-likelihood）。定义...

机器学习-极大似然估计

小呆苗的博客

05-20 1024

通俗理解：就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！（模型已定，参数未知）注意：极大似然估计中所有的采样都是独立的。最大似然估计求解步骤：例题：设总体X的分布律为P{X=k}=p(1-p)k-1,k=1,2,……，其中p为未知参数，且X1,X2,……Xn为来自总体X的简单随机样本，求参数p的矩阵估计量和极大似然估计量。 1.写出极大似然估计函数： L（p)=P{X=X1}P{X=X2}……P{X=Xn}=p(1-p)X1-1p(1-p)X2-1……p(1

高斯分布的极大似然估计、多维高斯分布

CarpeDiem

11-10 2243

本节主要是在看了机器学习白板推导的数学基础，整理的高斯分布的学习笔记，主要涉及一维高斯分布的极大似然估计和无偏估计，同时也介绍了多维高斯分布的理解和多维高斯分布的局限性，并给出我们在实际应用中经常碰到的两种情况：第一种，已知联合概率分布求边缘概率和条件概率分布；第二种：已知边缘概率和条件概率分布求联合概率分布。

R语言: 极大似然估计实例

span76的专栏

05-30 3万+

同济习题 7.2 某厂晶体管寿命服从 E(lamda) 指数分布, Lamda未知, 且Lamda>0, 随机抽取样本寿命如下(小时) 518,612,713,388,434 用极大似然估计其平均寿命指数分布: 构造似然函数 L(lamda) f logL = n*log(lamda) - lamda*sum(x)

似然函数，极大似然估计（一文搞定，能用嘴说的不堆公式）

三眼二郎

08-27 9120

总体思想：已知结果，求概率密度函数输入：已知一个抽样样本的规律，一个存在未知量的概率密度函数输出：求得概率密度函数的未知量，获得分布规律例子：1000个胃癌患者中，抽出100人调查体重值，我们大概能用一个函数描述出概率密度函数和体重的关系，f(a,b,c)，但是我们不知道a，b，c，我们需要一种方法求a，b，c 我们会说了，我们已经抽出了一个样本，我们可以直接求概率分布，用小样本代替整体的分...

概率论之最大似然估计以及假设检验----＞（习题与知识点总结）

bless_my_head的博客

03-11 3988

【最大似然估计】：知识点：例题：（题型1）答案：【假设检验】：题型1： ...

模式识别大作业matlab

最新发布

09-19

模式识别大作业中，你可以使用Matlab来进行一些数据处理和图像绘制的操作。例如，你可以使用Matlab读取一个文本文件中的数据，并将这些数据绘制成散点图。你可以按照以下步骤进行操作： 1. 打开文本文件：使用fid = ...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交