模式识别复习【哈尔滨工业大学（威海）】

GooO_O

已于 2023-12-23 17:05:26 修改

阅读量868

点赞数 13

分类专栏：学习 AI 进行时文章标签：人工智能机器学习深度学习算法

于 2023-12-21 13:39:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GooO_O/article/details/135126042

版权

学习 AI 进行时专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

第二讲距离分类器

第三讲线性判别函数分类器 I

感知器算法：

第四讲线性判别函数分类器II

LSME算法：最小平方误差准则

第五讲支持向量机

第六讲特征选择与特征提取 I

第七讲特征选择与特征提取II

第八讲贝叶斯决策理论

第九讲正态分布的贝叶斯分类器

第十讲参数估计和非参数估计

第十一讲高斯混合模型

第十一讲隐马尔可夫模型（1）

HMM核心问题

第十二讲聚类分析

第十三讲集成学习

一些对比概念

模式识别2022回忆

绪论

1. 模式识别是研究如何让机器能够：

1. 观察（感知）环境

2. 学习区分感兴趣的模式

3. 根据模式的类别做出合理的决策

2. 模式识别分类：

1. 有监督/无监督学习

·有监督学习：已知训练集个样本的类别监督信息下，学习分类器

·无监督学习：训练集中没有样本的类别信息，确定样本的类别或样本分布的潜在信息

2. 判别模型、生成模型

· 判别模式：利用判别函数对特征空间进行划分

· 生成模式：根据样本属于不同区域的概率来分类

3. 统计方法、神经网络、句法结构

· 统计方法：基于特征的统计模型来构建分类器≥

· 神经网络：基于网络，少量先验知识

· 句法结构：基于结构相似性度量来分类

3. 什么是好的特征：

1. 区分样本的能力

2. 不变性

第二讲距离分类器

1. 最近邻分类器：无模型参数，无学习过程

2. 近邻剪辑不改变分类界面

3. k近邻：

1. 优点：易于理解与实现；训练时间短；容易处理多分类；非参数化

非参数化：就是不用已知样本分布，直接观察数据进行拟合。

2. 缺点：测试阶段计算成本高；易受数据分布影响；高维数据会降低计算精度

4. 有数值计算时则需要归一化和标准化。

1. 归一化：把特征都缩放到相同的范围内

2. 标准化：把特征平移、缩放到符合某种分布。

3. 对比：

· 标准化对异常值更稳健

· 数据不服从正态分布时，归一化更合理

· 标准化在数据服从正态分布时更有帮助

· 何时进行特征缩放？先进行训练集测试集划分，后进行特征缩放，以避免数据泄露

5. PR曲线 - ROC曲线-下方为AUC 0～1 越大越好

6. 错误率 Pe = 分类错误个数/（总个数 — 拒识个数）

7. 准确率 ACC = 1 - Pe

8. 偏差：准不准；方差：聚集不聚集

了解：敏感性（真阳率） = TP / （TP + FN） ——》患者被诊断出来

特异性（1 - 假阳率）= TN / （FP + TN）——》没有被误诊

第三讲线性判别函数分类器 I

r0 = W0 / ｜｜W｜｜

r = g（x）/ ｜｜W｜｜

一般的准则函数只能收敛于局部极值，二次准则函数有唯一极值点，可以获得最优解

感知器算法：

准则函数：以错误分类样本到判别界面的‘距离’之和；感知器算法例题，最后要会画图

第四讲线性判别函数分类器II

LSME算法：最小平方误差准则

这里的求逆矩阵、转置矩阵还是要会算

由线性到非线性：

途径：广义线性判别函数、分段线性判别函数、多层感知器、核函数方法

第五讲支持向量机

1. 函数间隔： b = |g(x)| = | wx + w0 |

2. 几何间隔： Vi = b / || w ||

3. 软间隔

SVM

1. 优点：

· 可以解决高维问题

· 能够处理非线性特征的相互作用

· 无局部极小值问题

· 无需依赖整个数据

· 泛化能力强

2. 缺点：

· 当观测样本很多时，效率低

· 对非线性问题没有通用解决方案

· 对核函数的高维映射解释力不强

· 常规SVM只支持2分类

第六讲特征选择与特征提取 I

1. 维数诅咒

2. 特征选择：从原始特征中挑选对分类效果好的

· 目的：判断特征对分类的有效性

· 方法：类别可分性判据、分支定界法

3. 特征提取：将原始特征变为一组新的特征。新的特征更有利于分类

· 目的：根据特定的关系，对特征进行变化

· 方法：主成分分析（PCA）、Fisher判别分析

其中的J就是上面那几个J1、2、3、4

第七讲特征选择与特征提取II

PCA：

1. 特征矢量正交

2. 变化后特征不相关

3. 冗余特征（特征值为0）

4. 降维误差估计

5. 例题：

6. LDA： LDA是有监督的，故充分保留了样本的类别可分性信息

第八讲贝叶斯决策理论

1. 基础概念必须记清楚：

2. 贝叶斯定理例题：

3. 最小错误率例题：

4. 最小风险例题：被判断为W1的风险 = 风险2-》1 * P（x｜W2）P（Ｗ2），哪个风险小判断为哪一类

5. 贝叶斯本质：先验知识+数据——》更新已有知识并把后验概率作为新的知识

6. 采用0-1损失函数时：最小风险决策等价于最小错误率

第九讲正态分布的贝叶斯分类器

1. 判别边界：两类判别区域的交界为判别边界，判别边界上两个判别函数值相同

第十讲参数估计和非参数估计

1. 参数估计：Parzen窗

2. 非参数估计：

3. 最大似然估计（计算题计算参数 sita）

第十一讲高斯混合模型

1. 高斯混合模型（GMM）的目的是估计 P（x ｜ wi）

第十一讲隐马尔可夫模型（1）

1. 由矩阵画图和由图写矩阵

HMM核心问题：

1. 估值问题

2. 解码问题 O（Ｍ2T）

3. 学习问题

第十二讲聚类分析

1. kmeans的题目要会做

2. 聚类流程：

输入模式——》特征选择与提取——〉相似性度量——》聚类算法————〉聚类结果

聚类有效性检验

3. 聚类：通过相似性推测簇标记

4. 分类：通过标签推测相似性

第十三讲集成学习

作业题

一些对比概念：

1. 有监督学习和无监督学习的区别

1. 监督学习的训练样本有类别标签，分类与回归问题。目标是训练模型，使其能够对新的输入时预测输出。

2. 非监督学习则没有，聚类问题。目标是从未知数据集中找到内在规律与性质。

2. PCA和LDA的区别

1. PCA是无监督的成分分析，只考虑类别的整体分布，没有考虑样本类别可分性信息，选择样本特征中对分类更有利的一部分作为新的特征，特征矢量正交

2. LDA是有监督的成分分析方法，保留了样本的类别可分性信息，寻找对分类最有利的线性映射，特征矢量不正交，当有C个类别时，特征组成最多C-1，当样本足够多时，Sw为非奇异矩阵。

3. 特征提取和特征选择的区别

1. 特征选择：判断特征对分类的有效性

2. 特征提取：将特征进行变化，新的特征对分类更有效

4. 感知器算法和最小平方误差算法的区别

1. 感知器算法：基于错误分类的个数，不断更新权矢量，减少误分个数。

2. 最小平方误差算法：根据预测值与真实值之间的误差，视图最小化误差

5. Bagging和Boosting区别

1. Bagging是并行的集成学习方法，基分类器之间没有关系

2. Boosting是串行的集成学习方法，下一个基分类器的学习要根据之间的学习来调整。

6. 聚类和分类的区别

1. 聚类：给出/构造相似性测试、通过相似性推测簇标记、只讨论对当前集合中样本进行聚类。

2. 分类：给出标签了、通过标签推测相似性、对样本集以外的其他样本进行分类

7. 参数估计和非参数估计的区别

1. 参数估计：需要的数据量大、无需知道任何关于分布的先验知识、直接用训练集D估计分布

2. 非参数估计：需要的数据量小、已知分布，但具体参数未知，任务为根据训练集D来估计分布的参数 sita。

8. 判别模型和产生式模型的区别

1. 判别模型：x为样本空间的点，根据判别函数g（ x），来判断其属于哪一类

2. 产生式模型：x为特征随机变量，判断样本属于不同区域的概率

9. 多分类：一对一、一对多分类准则：

1. 一对一：存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识 ×

2. 一对多：任意 j != i, gij(x)>0 ；其余情况拒识 ×

3. 一对多：存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识

5. 一对一：任意 j != i, gij(x)>0 ；其余情况拒识

10. 特征归一化、标准化

1. 归一化：将特征通过缩放平移变化到相同的范围中。

2. 标准化：通过平移缩使得特征满足某一分布

11. 标准化对异常值更稳健

1. 数据不服从正态分布时，归一化更合理

2. 标准化在数据服从正态分布时，更有帮助

模式识别2022回忆

1.

（1）计算准确率召回率f1

（2）计算正确率错误率

f1 = TP/（TP+1/（FP+TN））！！写错了

F1 = 2/ （1/召回率 + 1/查准率） = TP/（TP + （FN+FP）/2）

召回率 = TP / TP + FN

查准率（精确率） = TP/ （TP+FP）

正确率 = 正确的/（总的-拒识的）

错误率 = 1-正确率

2.

（1）监督学习和非监督学习的区别

（2）用kmeans对样本分类

监督学习的训练样本有类别标签，分类与回归问题。目标是训练模型，使其能够对新的输入时预测输出。

非监督学习则没有，聚类问题。目标是从未知数据集中找到内在规律与性质。

kmeans样本分类

计算标签

更新个类别中心点

3.

（1）证明后验概率满足逻辑回归的分类面是线性

（2）求泊松分布的最大似然估计函数

lameta = 1/n * （sum xi）

4.

（1）画出HMM模型图（隐马尔可夫模型，模型图即使根据欧米茄、A、B画转化图）

（2）HMM估值问题—》计算题呗，估值和解码问题ppt计算题

5.

（1）感知器多分类算法中一对一和一对多的分类准则（多类别线性分类）

（2）感知器算法计算题

（3）SVM计算题

算出超平面后要会画图

svm计算题：

6.

（1）PCA降维和LDA降维哪些区别

（2）PCA计算题

区别：

PCA思想：建立新的坐标系，用更少的坐标重新表示数据。理想情况下可以完美恢复数据，PCA降维后各特征是不相关的（正交、独立），PCA是无监督的成分分析，它只考虑了样本集的整体分布，并没有使用类别信息

LDA降维后的特征非正交，有监督，需要标签（计算散布矩阵），新的坐标维数至多c-1维（c为类别数）。样本数多时，才能保证矩阵Sw是非奇异的。

PCA计算题：

2023回忆

Bagging流程

虽然最后成绩并不理想，但希望认真复习的同学都能有满意的成绩

关注

13
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

GooO_O CSDN认证博客专家 CSDN认证企业博客

码龄3年

哈尔滨工业大学（威海）

54: 原创

17万+: 周排名

8万+: 总排名

4万+: 访问

: 等级

1154: 积分

690: 粉丝

604: 获赞

7: 评论

654: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文阅读】一种基于图深度学习的互联网通信故障检测与定位方法
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
读论文？写论文？
CSDN-Ada助手: “恭喜你写了第13篇博客！坚持不懈地创作是一件了不起的事情。关于读论文和写论文的话题很有深度，希望你可以继续挖掘这个主题，可以尝试结合自己的经验和观点，或者探讨一些新的研究成果。期待你的下一篇作品！”
论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》
CSDN-Ada助手: 恭喜您写了第14篇博客，标题为“论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》”！您对于深度学习领域的研究和阅读能力令人钦佩，希望您能继续保持创作的热情和努力。或许下一步可以考虑结合自己的理解和实践经验，写一些相关的案例分析或者应用探讨，让读者更加深入地理解这篇论文的内容。期待您的下一篇作品！
07.24 今天是 git的简单应用
CSDN-Ada助手: 恭喜你写了第15篇博客！能够持续创作并分享自己的学习心得是一件非常棒的事情。对于git的简单应用，你已经做得很好了。接下来，或许可以考虑深入探讨一些git的高级应用，比如分支管理、合并等方面的内容，这样可以让读者们更全面地了解git的使用。希望你能继续保持创作的热情，期待你更多精彩的分享！
MyBatisPlus
CSDN-Ada助手: 恭喜你写了第16篇博客！看了你关于“MyBatisPlus”的文章，收获颇丰。希望你能继续坚持创作，分享更多有价值的内容。建议你在下一篇博客中可以分享一些自己在实际项目中应用“MyBatisPlus”的经验和教训，这样会更具有实用性。期待你的新作！加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。