模式识别复习【哈尔滨工业大学(威海)】

目录

绪论

第二讲 距离分类器

第三讲 线性判别函数分类器 I

感知器算法:

第四讲 线性判别函数分类器II

LSME算法:最小平方误差准则

第五讲 支持向量机

SVM

第六讲 特征选择与特征提取 I

第七讲 特征选择与特征提取II

PCA

第八讲 贝叶斯决策理论

第九讲 正态分布的贝叶斯分类器

第十讲 参数估计和非参数估计

第十一讲 高斯混合模型

第十一讲 隐马尔可夫模型(1)

HMM核心问题

第十二讲 聚类分析

第十三讲 集成学习

作业题

一些对比概念

模式识别2022回忆

2023回忆


绪论

1. 模式识别是研究如何让机器能够:

        1. 观察(感知)环境

        2. 学习区分感兴趣的模式

        3. 根据模式的类别做出合理的决策

2. 模式识别分类:

        1. 有监督/无监督学习

                ·有监督学习:已知训练集个样本的类别监督信息下,学习分类器

                ·无监督学习:训练集中没有样本的类别信息,确定样本的类别或样本分布的潜在信息

        2. 判别模型、生成模型

                · 判别模式:利用判别函数对特征空间进行划分

                · 生成模式:根据样本属于不同区域的概率来分类

        3. 统计方法、神经网络、句法结构

                · 统计方法:基于特征的统计模型来构建分类器≥

                · 神经网络:基于网络,少量先验知识

                · 句法结构:基于结构相似性度量来分类

3. 什么是好的特征:

        1. 区分样本的能力

        2. 不变性

第二讲 距离分类器

1. 最近邻分类器:无模型参数,无学习过程

2. 近邻剪辑不改变分类界面

3. k近邻:

       1.  优点:易于理解与实现;训练时间短;容易处理多分类;非参数化

                非参数化:就是不用已知样本分布,直接观察数据进行拟合。

        2. 缺点:测试阶段计算成本高;易受数据分布影响;高维数据会降低计算精度

4. 有数值计算时则需要归一化和标准化。

        1. 归一化:把特征都缩放到相同的范围内

        2. 标准化:把特征平移、缩放到符合某种分布。

        3. 对比:

                · 标准化对异常值更稳健

                · 数据不服从正态分布时,归一化更合理

                · 标准化在数据服从正态分布时更有帮助

                · 何时进行特征缩放?先进行训练集测试集划分,后进行特征缩放,以避免数据泄露

5. PR曲线 - ROC曲线-下方为AUC 0~1 越大越好

6. 错误率 Pe = 分类错误个数/(总个数 — 拒识个数)

7. 准确率 ACC = 1 - Pe

8. 偏差:准不准; 方差:聚集不聚集

了解:敏感性(真阳率) = TP / (TP + FN) ——》患者被诊断出来

           特异性(1 - 假阳率)= TN / (FP + TN)——》没有被误诊

第三讲 线性判别函数分类器 I

r0 = W0 /  ||W||

r = g(x)/ ||W||

一般的准则函数只能收敛于局部极值,二次准则函数有唯一极值点,可以获得最优解

感知器算法:

准则函数:以错误分类样本到判别界面的‘距离’之和; 感知器算法例题,最后要会画图

第四讲 线性判别函数分类器II

LSME算法:最小平方误差准则

这里的求逆矩阵、转置矩阵还是要会算

由线性到非线性:

        途径:广义线性判别函数、分段线性判别函数、多层感知器、核函数方法

第五讲 支持向量机

1. 函数间隔: b = |g(x)| = | wx + w0 |

2. 几何间隔: Vi = b / || w ||

3. 软间隔

SVM

1. 优点:

        · 可以解决高维问题

        · 能够处理非线性特征的相互作用

        · 无局部极小值问题

        · 无需依赖整个数据

        · 泛化能力强

2. 缺点:

        · 当观测样本很多时,效率低

        · 对非线性问题没有通用解决方案

        · 对核函数的高维映射解释力不强

        · 常规SVM只支持2分类

第六讲 特征选择与特征提取 I

1. 维数诅咒

2. 特征选择:从原始特征中挑选对分类效果好的

        · 目的:判断特征对分类的有效性

        · 方法:类别可分性判据、分支定界法

3. 特征提取:将原始特征变为一组新的特征。新的特征更有利于分类

        · 目的:根据特定的关系,对特征进行变化

        · 方法:主成分分析(PCA)、Fisher判别分析

其中的J就是上面那几个J1、2、3、4

第七讲 特征选择与特征提取II

PCA:

1. 特征矢量正交

2. 变化后特征不相关

3. 冗余特征(特征值为0)

4. 降维误差估计

5. 例题:

6. LDA: LDA是有监督的,故充分保留了样本的类别可分性信息

第八讲 贝叶斯决策理论

1. 基础概念必须记清楚:

2. 贝叶斯定理例题:

3. 最小错误率例题:

4. 最小风险例题:被判断为W1的风险 = 风险2-》1   * P(x|W2)P(W2),哪个风险小判 断为哪一类

5. 贝叶斯本质:先验知识+数据——》更新已有知识并把后验概率作为新的知识

6. 采用0-1损失函数时:最小风险决策等价于最小错误率

第九讲 正态分布的贝叶斯分类器

1. 判别边界:两类判别区域的交界为判别边界,判别边界上两个判别函数值相同

第十讲 参数估计和非参数估计

1. 参数估计:Parzen窗

2. 非参数估计:

3. 最大似然估计(计算题 计算参数 sita)

第十一讲 高斯混合模型

1. 高斯混合模型(GMM)的目的是估计 P(x | wi)

第十一讲 隐马尔可夫模型(1)

1. 由矩阵画图和由图写矩阵

HMM核心问题:

        1. 估值问题

        2. 解码问题 O(M2T)

        3. 学习问题

第十二讲 聚类分析

1. kmeans的题目要会做

2. 聚类流程:

输入模式——》特征选择与提取——〉相似性度量——》聚类算法————〉聚类结果

                                                                                聚类有效性检验

3. 聚类:通过相似性推测簇标记

4. 分类:通过标签推测相似性

第十三讲 集成学习

作业题

一些对比概念:

1. 有监督学习和无监督学习的区别

        1. 监督学习的训练样本有类别标签,分类与回归问题。目标是训练模型,使其能够对新的输入时预测输出。

        2. 非监督学习则没有,聚类问题。目标是从未知数据集中找到内在规律与性质。

2. PCA和LDA的区别

        1. PCA是无监督的成分分析,只考虑类别的整体分布,没有考虑样本类别可分性信息,选择  样本特征中对分类更有利的一部分作为新的特征,特征矢量正交

        2. LDA是有监督的成分分析方法,保留了样本的类别可分性信息,寻找对分类最有利的线性映射,特征矢量不正交,当有C个类别时,特征组成最多C-1,当样本足够多时,Sw为非奇异矩阵。

3. 特征提取和特征选择的区别

        1. 特征选择:判断特征对分类的有效性

        2. 特征提取:将特征进行变化,新的特征对分类更有效

4. 感知器算法和最小平方误差算法的区别

        1. 感知器算法:基于错误分类的个数,不断更新权矢量,减少误分个数。

        2. 最小平方误差算法:根据预测值与真实值之间的误差,视图最小化误差

5. Bagging和Boosting区别

        1. Bagging是并行的集成学习方法,基分类器之间没有关系

        2. Boosting是串行的集成学习方法,下一个基分类器的学习要根据之间的学习来调整。

6. 聚类和分类的区别

        1. 聚类:给出/构造相似性测试、通过相似性推测簇标记、只讨论对当前集合中样本进行聚类。

        2. 分类:给出标签了、通过标签推测相似性、对样本集以外的其他样本进行分类

7. 参数估计和非参数估计的区别

        1. 参数估计:需要的数据量大、无需知道任何关于分布的先验知识、直接用训练集D估计分布

        2. 非参数估计:需要的数据量小、已知分布,但具体参数未知,任务为根据训练集D来估计分布的参数 sita。

8. 判别模型和产生式模型的区别

        1. 判别模型:x为样本空间的点,根据判别函数g( x),来判断其属于哪一类

        2. 产生式模型:x为特征随机变量,判断样本属于不同区域的概率

9. 多分类:一对一、一对多分类准则:

        1. 一对一:存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识   ×

        2. 一对多:任意 j != i, gij(x)>0 ;其余情况拒识    ×

        3. 一对:存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识  

        5. 一对:任意 j != i, gij(x)>0 ;其余情况拒识    

10. 特征归一化、标准化

        1. 归一化:将特征通过缩放平移变化到相同的范围中。

        2. 标准化:通过平移缩使得特征满足某一分布

11. 标准化对异常值更稳健

        1. 数据不服从正态分布时,归一化更合理

        2. 标准化在数据服从正态分布时,更有帮助

模式识别2022回忆

1.

        (1)计算准确率召回率f1

        (2)计算正确率错误率

        f1 = TP/(TP+1/(FP+TN))!!写错了

        F1 = 2/ (1/召回率 + 1/查准率) = TP/(TP + (FN+FP)/2)

        召回率 = TP / TP + FN

        查准率(精确率) = TP/ (TP+FP)

        正确率 = 正确的/(总的-拒识的)

        错误率 = 1-正确率

2.

        (1)监督学习和非监督学习的区别

        (2)用kmeans对样本分类

                监督学习的训练样本有类别标签,分类与回归问题。目标是训练模型,使其能够对新的输入时预测输出。

                非监督学习则没有,聚类问题。目标是从未知数据集中找到内在规律与性质。

                kmeans样本分类

                计算标签

                更新个类别中心点

3.

        (1)证明后验概率满足逻辑回归的分类面是线性

        (2)求泊松分布的最大似然估计函数

        lameta = 1/n * (sum xi)

4.

        (1)画出HMM模型图(隐马尔可夫模型,模型图即使根据欧米茄、A、B画转化图)

        (2)HMM估值问题—》计算题呗,估值和解码问题ppt计算题

5.

        (1)感知器多分类算法中一对一和一对多的分类准则(多类别线性分类)

        (2)感知器算法计算题

        (3)SVM计算题

                算出超平面后要会画图

                svm计算题:

6.

        (1)PCA降维和LDA降维哪些区别

        (2)PCA计算题

                区别:

                        PCA思想:建立新的坐标系,用更少的坐标重新表示数据。理想情况下可以完美恢复数据,PCA降维后各特征是不相关的(正交、独立),PCA是无监督的成分分析,它只考虑了样本集的整体分布,并没有使用类别信息

                        LDA降维后的特征非正交,有监督,需要标签(计算散布矩阵),新的坐标维数至多c-1维(c为类别数)。样本数多时,才能保证矩阵Sw是非奇异的。

PCA计算题:

2023回忆

        Bagging流程

虽然最后成绩并不理想,但希望认真复习的同学都能有满意的成绩

  • 13
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值