模式识别知识点

懵逼树下的懵逼果

于 2023-07-11 10:56:24 发布

阅读量1.1k

点赞数 5

文章标签：人工智能神经网络卷积神经网络聚类均值算法

本文链接：https://blog.csdn.net/C302641/article/details/131654574

版权

本文介绍了模式识别的概念，包括统计模式识别、句法模式识别和模糊、神经网络方法。重点讲述了聚类分析，如C均值算法，以及判别域代数界面方程法，包括线性判别函数和Fisher线性判别。此外，还涉及了神经网络的基础原理和统计判决中的全概率公式与Bayes公式。

摘要由CSDN通过智能技术生成

第一章引论

1_1 概念

模式识别（PR）：确定一个样本的类别属性（模式类）的过程，即把某一样本归属到多个类型中的一个类型
样本：一个具体的研究（客观）对象，如患者，某人写的一个汉字，一副图片等
模式：对客体（研究对象）特征的描述（定量的或结构的描述），时取自客观世界的某一样本的测量值的集合（或综合）
特征：能描述模式特征的量（测量值）。通常用一个矢量 $\overrightarrow{x}~$ 表示，称为特征矢量
- $\overrightarrow{x}=(x_1,x_2,...,x_n)^`$
模式类：具有某些共同特性的模式的集合
训练集：是一个已知样本集，在监督学习方法中，用它来开发出模式分类器
测试集：在设计识别和分类系统时没有用过的独立样本集
系统评估原则：为了更好地对模式识别系统性能进行评价，必须使用一组独立于训练集的测试集对系统进行测试

1_2 模式识别三大任务

各类空间的概念

对象空间 $\rightarrow$ （模式采集） $\rightarrow$ 模式空间 $\rightarrow$ （特征提取和特征选择） $\rightarrow$ 特征空间 $\rightarrow$ （类型旁别） $\rightarrow$ 类型空间
- 通常再采集信息的过程中，需要去除信息中的噪音，信息纯化，预处理

1_3 模式识别系统概述

模式识别系统的主要环节
- 特征提取：符号表示，如长度、波形
- 特征选择：选择有代表性的特征，能够正确分类
- 学习和训练：利用已知样本建立分类和识别规则
- 分类识别：对所获得样本按建立的分类规则进行分类识别

1_4 模式识别系统的算法体系

在这里插入图片描述

1_5 统计模式识别

模式描述方法：特征向量 $\overrightarrow{x}=(x_1,x_2,...,x_n)^`$
模式判定：模式类用条件概率分布 $P(X/w_i)$ 表示，m类就有m个分布，然后判定未知模式属于哪一个分布

1_6 句法模式识别

模式描述方法：符号串，树，图
模式判定：是一种语言，用一个文法表示一个类，m类就有m个文法，然后判定未知模式遵循哪一个文法

1_7 模糊、神经网络、智能方法

模糊模式识别

模式描述方法：模糊集合 $A=\{(\mu_a,a),(\mu_b,b),...(\mu_n,n)\}$
模式判定：是一种集合运算。用隶属度将模糊集合花粉为若干子集，m类就有m个子集，然后根据择近原则分类

人工神经网络法

模式描述方法：以不同活跃度表示的输入节点集（神经元）
模式判断定：是一个非线性动态系统。通过对样本的学习建立起记忆，然后将未知模式判决为其最接近的记忆

逻辑推理法（仍智能法）

模式描述方法：字符串表示的事实
模式判定：是一种布尔运算。从事实出发运用一系列规则，推理得到不同结果，m个类就有m个结果

1_9 随机矢量的描述和特征

特征矢量：设一个研究对象的n个特征量测量值分别为 $x_1,x_2,...x_n$ ，将这些特征作为一个整体来考虑，构成一个n维特征矢量 $\overrightarrow{x}$
特征空间：各种不同取值的特征矢量的全体构成了n维特征空间
注：特征矢量就是特征空间中的一个点
随机矢量：许多对象的特征向量在n维空间中呈随机性分布

随机矢量的描述

随机矢量的分布函数：
- 设 $\overrightarrow{X}=(X_1,X_2,...,X_n)^`$ 为随机矢量
- $\quad \overrightarrow{x}=(x_1,x_2,...,x_n)^`$ 为确定性矢量
- 随机矢量的联合概率分布函数定义为： $F(x_1,x_2,...,x_n)=P(X_1\leq x_1,X_2\leq x_2,...,X_n\leq x_n)\\ F(\overrightarrow{x})=P(\overrightarrow{X}\leq \overrightarrow{x})$
- 式中 $P (.)$ 表示括号中事件同时发生的概率

随机矢量的数字特征

均值矢量（期望矢量）
- n维随机矢量 $\overrightarrow{X}$ 的数学期望 $\overrightarrow{\mu}$ 定义为：
- $\overrightarrow{\mu}=E[\overrightarrow{X}]=\overline{\overrightarrow{X}}=\int\nolimits_{X^n}\overrightarrow{x}p(\overrightarrow{x})d\overrightarrow{x}$

正太分布

正太分布的一维随机变量X的概率密度函数：
- $\over \sqrt{2\pi}\sigma}exp[-\frac{(x-\mu)^2}{2\sigma^2}]$
- 式中， $\mu$ 为数学期望， $\sigma^2$ 为方差
一维随机变量的正太分布
- $\mu = E[X]=\int\limits_{-\infty}^{\infty}xp(x)dx$
- $\sigma^2=E[(X-\mu)^2]=\int\limits_{-\infty}^{\infty}(x-\mu)^2p(x)dx$
二维随机变量的正太分布

第二章聚类分析

2_1 聚类分析的概念

方法的有效性

取决于分类算法和特征点分布情况的匹配
非欸类无效的情况
- 特征选取不当使分类无效
- 特征选取不可能使不同类别的模式判为一类
- 特征选取过多可能无益反而有害，增加分析负担并使分析效果变差
- 量纲选取不当

聚类应用的四个基本方向
- 减少数据
- 假说生成
- 假说检验
- 基于分组的预测

2_4 样本相似度测量

聚类过程遵循的基本步骤
- 特征选择：尽可能多地包含任务关心的信息
- 相似度测量：定量测定两特征如何“相似”或“不相似”
- 聚类准则：以蕴涵在数据集中类的类型为基础
- 聚类算法：按近邻测度和聚类准则揭示数据集的聚类结构
- 结果验证：常用逼近检验验证聚类结果的正确性
- 结果判定：由专家用其他方法判定结果的正确性
模式相似性测度

距离测度
- 测度基础：两个矢量矢端的距离
- 测度数值：两矢量各相应分量之差的函数
1. 欧氏距离
- $d(\overrightarrow{x},\overrightarrow{y})=||\overrightarrow{x}-\overrightarrow{y}||=[\sum\limits_{i=1}^n(x_i-y_i)^2]^{1/2}$
- $\overrightarrow{x}= (x_1,x_2,...,x_n)^`,\overrightarrow{y}=(y_1,y_2,...,y_n)^`$
1. 绝对值距离（街坊距离或Manhattan距离）
- $d(\overrightarrow{x},\overrightarrow{y})=\sum\limits_{i=1}^n|x_i-y_i|$
1. 切氏距离
- $d(\overrightarrow{x},\overrightarrow{y})=max|x_i-y_i|$
1. 明氏距离
- $d(\overrightarrow{x},\overrightarrow{y})=[\sum\limits_{i=1}^n|x_i-y_i|^m]^{1/m}$
1. 马氏距离
- 设n维矢量 $\overrightarrow{x}_i和\overrightarrow{x}_j$ 是矢量集 $\{\overrightarrow{x}_1,\overrightarrow{x}_2,...,\overrightarrow{x}_m\}$ 中的两个矢量，马氏距离d定义为：
- $d^2(\overrightarrow{x}_i,\overrightarrow{x}_j)=(\overrightarrow{x}_i-\overrightarrow{x}_j)^`V^{-1}(\overrightarrow{x}_i-\overrightarrow{x}_j)$
- 其中： $V=\dfrac{1}{m-1}\sum\limits_{i=1}^{m}(\overrightarrow{x}_i-\overrightarrow{x})(\overrightarrow{x}_i-\overrightarrow{x})^`$
- $\overline{\overrightarrow{x}}=\dfrac{1}{m}\sum\limits_{i=1}^m\overrightarrow{x_i}$
- 注意：马氏距离对一切非奇异线性变换都是不变的，这说明它不受特征量纲选择的影响，并且是平移不变的
- V的含义是这个矢量集的协方差阵的统计量，故马氏距离加入了对特征的相关性的考虑
相似测度
匹配测度

2_5 类间距离的定义

类的定义：设集合S中任意元素 $x_i$ 与 $y_j$ 间的距离 $d_{ij}$ 有 $d_{ij}\leq h$
- 其中h为给定的阈值，称S对于阈值h组成一类
类间距离测度方法

最近距离法： $D_{kl}=min[d_{ij}]$
最远距离法： $D_{kl}=max[d_{ij}]$
中间距离法
重心距离法
平均距离法
离差平方和法

聚类的准则函数

判别分类结果好坏的一般标准：类内距离小。类间距离大

简单聚类方法

按最小距离原则简单聚类方法
- 针对具体问题确定相似性阈值，将模式到各聚类中心间的距离与阈值比较，当大于阈值时改模式就作为另一类的类心，小于阈值时按最小距离原则将其划到某一类中
- 这类算法运行中模式的类别及类的中心一旦确定将不会改变
按最小距离原则进行两类合并的方法
- 首先视各模式自成一类，然后将距离最小的两类合并成一类，不断地重复这个过程，直到成为两类为止
依据准则函数动态聚类方法
- 设定一些分类的控制参数，定义一个能表征聚类结果优劣的准则函数，聚类过程就是使准则函数取极值的优化过程

2_8 C均值算法

第三章判别域代数界面方程法

3.1用判别域界面方程分类的概念

分类的基本原理
- 运用已知类别的训练样本进行学习，产生若干各代数界面 $d(\overrightarrow{x})=0$ , 将特征空间划分成一些互不重叠的子区域
判别函数
- 表示界面的函数 $d(\overrightarrow{x})$ 称为判别函数
线性可分的定义
- 对于来自两类的一组模式 $\overrightarrow{x}_1,\overrightarrow{x}_2,...,\overrightarrow{x}_N$ ,如果能用一个线性判别函数正确分类，则称他们是线性可分的
本章分类方法的基本技术思想
- 利用训练样本求出分类器/判别函数
- 利用判别函数对未知类别样本分类

3.2 线性判别函数

在n维特征空间中，特征矢量 $\overrightarrow{x}_0=(x_1,x_2,....x_n)^`$ ，线性判别函数的一般形式是：
- $d(\overrightarrow{x})=w_1x_1+w_2x_2+...+w_nx_n+w_{n+1}=\overrightarrow{w}_0^`\overrightarrow{x}+w_{n+1}$
- 其中 $\overrightarrow{w}_0=(w_1,w_2,...w_n)^`$ 称为权矢量或系数矢量
- $\overrightarrow{x} 和\overrightarrow{w}$ 分别称为增广特征矢量和增广权矢量
$w_i/w_j$ 两分法（第二种情况）
- 对C类中的任意两类 $w_i和w_j$ 都分别建立一个判别函数，这个判别函数将属于 $w_i$ 的模式与属于 $w_j$ 的模式区分开。
- 此函数对其他模式分类不提供信息，因此总共需要 $c (c - 1) /2$ 个这样的判别函数
- 判别函数： $d_{ij}(\overrightarrow{x})=\overrightarrow{w}_{ij}^`\overrightarrow{x}\begin{cases}>0,若\overrightarrow{x}\in w_i \\ <0,若\overrightarrow{x}\in w_i \end{cases}$
- $i\not= j,~~d_{ij}(\overrightarrow{x})=-d_{ji}(\overrightarrow{x})$

判别规则是：
- 如果: $d_{ij}(x)>0,\forall j\not=i ~~$ 则判 $~~x\in w_i$

没有不确定区的 $w_i/w_j$ 两分法（第三种情况）

令方法2中的判别函数为： $d_{ij}(\overrightarrow{x})=d_i(\overrightarrow{x})-d_j(\overrightarrow{x})=(\overrightarrow{w}_i-\overrightarrow{w}_i)^`\overrightarrow{x}$
则 $d_{ij}(\overrightarrow{x})>0$ 等价于 $d_i(\overrightarrow{x})>d_j(\overrightarrow{x})$ ，于是对每一类 $w_i$ 均建立一个旁别函数 $d_i(\overrightarrow{x})=\overrightarrow{w}_i^`\overrightarrow{x}~~i=1,2,...,c$
故判决规则成为：
- 如果 $~d_i(\overrightarrow{x})>d_j(\overrightarrow{x})\quad \forall j\not=i\quad$ 则判 $\quad \overrightarrow{x}\in w_i$
- 判决规则的另一种表达形式：
- 如果 $\quad d_i(\overrightarrow{x})=max[d_j(\overrightarrow{x})]\quad$ 则判 $\quad \overrightarrow{x}\in w_i$

3.3 判别函数值的鉴别意义、权空间及解空间

n维特征空间 $X^n$ 中，两类问题的线性判别界面方程为： $d(\overrightarrow{x})=\overrightarrow{w}_0^`\overrightarrow{x}+w_{n+1}$
此方程表示一超平面 $\pi$ .它有以下三个性质
- 系数矢量 $\quad \overrightarrow{w}_0=(w_1,w_2,...,w_n)^`$ 是该平面的法矢量
- 判别函数 $d(\overrightarrow{x})$ 的绝对值正比于 $\overrightarrow{x}$ 到超平面 $d(\overrightarrow{x})=0$ 的距离
- 判别函数值的正负表示出特征点位于哪个半空间中

权空间
- 增广特征矢量与增广权矢量是对称的
- 判别函数可以写成： $d(\overrightarrow{x})=\overrightarrow{w}^`\overrightarrow{x}=\overrightarrow{x}^`\overrightarrow{w}=x_1w_1+x_2w_2+...+x_nw_n+w_{n+1}$
- 这里 $x_1,x_2,...,x_n,1\quad$ 则应视为相应的 $w_i$ 的”权“
解矢量
- 当训练模式 $\overrightarrow{x}_j\in w_1\quad 时有\overrightarrow{w}^` \overrightarrow{x}_j>0$
- 当训练模式 $\overrightarrow{x}_j\in w_2\quad 时有\overrightarrow{w}^` \overrightarrow{x}_j<0$
解空间
余量
- 为使解矢量可靠，使解区更小，可以采取增加训练模式数以及引入余量b，使 $\overrightarrow{w}^`\overrightarrow{x}\geq b$ ，从而达到更好的效果

3.4 Fisher线性判别

思想：多维 $~\Rightarrow~$ Fisher变换 $~\Rightarrow~$ 利于分类的一维
方法：求权矢量 $\overrightarrow{w}\Rightarrow$ 求满足上述目标的投影轴的反向 $\overrightarrow{w}_0$ 和在一维空间中确定判别规则
Fisher方法实现步骤总结
- 把来自两类 $w_1/w_2$ 的训练样本集X分成 $w_1$ 对应的子集 $X_1$ 和与 $w_2$ 对应的子集 $X_2$
- 由 $\overrightarrow{m}_i = \dfrac{1}{N_i}\sum\limits_j \overrightarrow{x}_j^{(i)}(i=1,2),计算$ $m_i$
- 由 $S_{W_i}=\sum\limits_j(\overrightarrow{x}_j^{(i)}-\overrightarrow{m}_i)(\overrightarrow{x}_j^{(i)}-\overrightarrow{m}_i)^`$ ,计算各类的类内离差阵 $S_{W1},S_{W2}$
- 计算类内总离差阵 $S_W=S_{W1}+S_{W2}$
- 计算 $S_W$ 的逆矩阵 $S_{W}^{-1}$
- 按 $\overrightarrow{\mu}=S_W^{-1}(\overrightarrow{m}_1-\overrightarrow{m}_2)$ ，求解$\mu $
- 计算 $\widetilde{m}=\frac{1}{N_i}\sum\limits_j\overrightarrow{u}^`x_j^{(i)}=\overrightarrow{u}^`\overrightarrow{m}_i$
- 计算 $y_t=\dfrac{\widetilde{m}_1+\widetilde{m}_2}{2}$
- 对未知模式x判定模式类 $\quad \overrightarrow{u}^`\overrightarrow{x}=y\gtrless y_t \Rightarrow \overrightarrow{x}\in \begin{cases}w_1 \\w_2\end{cases}$

3.5 一次准则函数及梯度下降法

3.5.1 感知器算法

3.5.2 一次准则函数及梯度下降法

3.6 二次准则函数及其解法

4 神经网络基础原理

在这里插入图片描述

基本神经元可视化
- 网络输入： $\quad z=\sum\limits_{i=1}^mx_iw_i+b\quad z=x^Tw+b$
- 偏置项：b
- 激活函数：f
- 输出到下一层： $\quad a=f(z)$
- sigmoid函数： $\sigma(z)=\dfrac{1}{1+e^{-z}}$
  - $\sigma^`(z)=\sigma(z)(1-\sigma(z))$
神经网络中的反向传播
- 做出预测
- 计算损失
- 根据参数计算损失梯度
- 向相反的方向调整步进，更新参数
- 迭代计算
内核
池化：最大池化，平均池化

第四章统计判决

全概率公式：设实验E的样本空间为S，A为E的事件， $B_1,B_2,...,B_n$ 为S的一个划分，且 $P(B_i)>0(i=1,2,...,n)$
- $P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...+P(A|B_n)P(B_n)$
Bayes公式
- $P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^nP(A|B_j)P(B_j)}=\dfrac{P(A|B_i)P(B_i)}{P(A)}$
- $P(A)P(B_i|A)=P(B_i)P(A|B_i)$