模式识别期中复习

最新推荐文章于 2022-12-16 20:52:58 发布

Mayer_MkI

最新推荐文章于 2022-12-16 20:52:58 发布

阅读量2.7k

点赞数 1

分类专栏：未完成文章标签：模式识别

本文链接：https://blog.csdn.net/weixin_40656809/article/details/78488350

版权

本书深入探讨模式识别的理论与方法，涵盖概论、统计决策、概率密度估计、线性与非线性分类器等内容。重点讲解了贝叶斯决策、最大似然估计、线性判别分析、支持向量机和特征选择等关键技术，旨在提升读者在模式识别领域的理论与实践能力。

摘要由CSDN通过智能技术生成

《模式识别（第三版）》
张学工编著
清华大学出版社

第一章概论

1.1模式与模式识别

1.2模式识别的主要问题

基于知识的方法
基于数据的方法

1.3监督模式识别与非监督模式识别

1.4模式识别系统举例

1.5模式识别系统的典型构成

处理监督模式识别问题的一般步骤
处理非监督模式识别问题的一般步骤

第二章统计决策方法

2.1引言

朕觉得你们应该会。
真不会的话去看统计信号处理的复习提纲。

2.2最小错误率贝叶斯决策

无特殊说明下贝叶斯决策就是最小错误率贝叶斯决策。

2.3最小风险贝叶斯决策

2.4两类错误率

灵敏度 $S_n$ ： $P_D$ 真正阳性样本中被正确检测出来的比例。
特异性 $S_p$ ： $1-P_F$ 阴性中没有被误判的比例。
第一类错误率 $\alpha=1-Sn$ ，假阳性，误报、虚惊。
第二类错误率 $\beta=1-Sp$ ，假阴性，漏报。

2.5Neyman-Pearson决策

2.6ROC曲线

曲线下面积AUC可以定性的衡量性能。

2.7正态分布时的统计决策

多元正态分布 $p(x)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$
多元正态分布完全由 $\mu$ 和 $\Sigma$ 确定，可以记为 $p(x)\sim N(\mu,\Sigma)$
多元正态分布的等密度点轨迹为一超椭球面。，主轴方向由协方差矩阵的本征向量所决定，主轴的长度与协方差矩阵的本征值成正比。

2.8错误率的计算

2.9离散概率模型下的统计决策举例

第三章概率密度函数的估计

3.1引言

贝叶斯决策的基础是概率密度函数的估计，即先验概率 $P(\omega_i)$ 和类条件概率密度 $p(x|\omega_i)$ ，重点是类条件概率密度的估计问题。
基于样本的两步贝叶斯决策：首先通过训练样本估计概率密度函数，再用统计决策进行类别判定。
概率密度函数的估计方法分为两大类：参数估计（parametric estimation）和非参数估计（nonparametric estimation）。
参数估计：已知概率密度函数的形式，但其中部分或全部参数未知，概率密度函数的估计问题退化成用样本来估计这些参数。
参数估计的方法：最大似然估计和贝叶斯估计，两种方法结果接近但处理方式不同。
非参数估计：概率密度函数的形式未知，用样本数值化的估计概率密度函数。
非参数估计的方法：直方图法、近邻法、Parzen窗法。

统计量：针对不同要求构造出的样本的某种函数。目的是将样本中的有关信息抽取出来。
参数空间：总体分布未知参数 $\theta$ 的全部可容许值组成的集合 $\Theta$ 。
点估计：构造统计量 $d(x_1,x_2,......,x_n)$ 作为参数 $\theta$ 的估计量 $\hat\theta$ ，带入观测值求出的估计量的具体数值成为观测值。
区间估计：用区间 $（d_1,d_2）$ 作为 $\theta$ 可能取值范围的一种估计，称为置信区间。
无偏性：参数 $\theta$ 的估计量 $\hat\theta$ 的数学期望等于参数 $\theta$ 本身。样本数趋于无穷时才具有无偏性称为渐进无偏。
有效性：方差小的估计更有效。
一致性：任意给定正数 $\epsilon$ ，总有 $lim_{n\to\infty}P（|\hat\theta_n-\theta|>\epsilon）$ 。一致性保证了样本无穷多时每一次估计的在概率上的性能。

3.2最大似然估计

最大似然估计的基本假设：
1）参数是确定但未知的量（多个参数时是向量）。
2）每类的样本满足独立同分布。
3）类条件概率密度 $p(x|\omega_i)$ 具有某种确定的函数形式，只是参数未知。
4）各类样本只包含本类的分布信息，也就是说不同类别的参数是独立的，可以对每一类单独处理。

似然函数：
样本集包含N个样本，即 $X=(x_1,x_2,.....,x_n)$ ，样本是独立抽取的，所以出现样本集 $X$ 的概率是出现各个样本的联合概率。
$l(\theta)=p(X|\theta)=p(x_1,x_2,.....,x_n|\theta)=\prod^N_{i=1}p(x_i|\theta)$
这个式子反映了不同参数下取得当前样本集的可能性，称为参数相对于样本集的似然函数，取N=1，得到的就是参数相对于每一个样本的似然函数。
在参数空间 $\Theta$ 中找到一个 $\theta$ 使得似然函数极大化。使得似然函数的值最大的 $\hat\theta=d(x_1,x_2,......,x_n)$ 称作 $\theta$ 的最大似然估计量。
记作 $\hat\theta=arg\ max\ l(\theta)$

最大似然估计的求解： $dl(\theta)/d\theta=0$ ，方程可能有多个解，取使似然函数最大的那个。
正态分布下的最大似然估计：对均值和方差的估计。

3.3贝叶斯估计和贝叶斯学习

与最大似然估计的区别：最大似然估计将待估计的参数当做未知但固定的量，要根据观测数据估计这个量的值；贝叶斯估计把待估计的参数本身也看作随机变量，要根据观测对参数的分布进行估计。除了观测数据外，还可以考虑参数的先验分布。
贝叶斯学习：直接从数据对概率密度函数进行迭代估计。
贝叶斯估计的思路：写出以 $\hat\theta$ 作为估计时的总期望风险 $R$ ，定义样本 $x$ 下的条件风险，总期望风险最小问题转化为对所有可能的 $x$ 求条件风险最小；采用平方误差岁数函数，得到贝叶斯估计量 $\theta^*=E[\theta|x]=\int_\Theta\theta p(\theta|x)d\theta$ 。
得到参数的后验概率后可以直接得到样本的概率密度函数 p(x