目录
绪论
1. 模式识别是研究如何让机器能够:
1. 观察(感知)环境
2. 学习区分感兴趣的模式
3. 根据模式的类别做出合理的决策
2. 模式识别分类:
1. 有监督/无监督学习
·有监督学习:已知训练集个样本的类别监督信息下,学习分类器
·无监督学习:训练集中没有样本的类别信息,确定样本的类别或样本分布的潜在信息
2. 判别模型、生成模型
· 判别模式:利用判别函数对特征空间进行划分
· 生成模式:根据样本属于不同区域的概率来分类
3. 统计方法、神经网络、句法结构
· 统计方法:基于特征的统计模型来构建分类器≥
· 神经网络:基于网络,少量先验知识
· 句法结构:基于结构相似性度量来分类
3. 什么是好的特征:
1. 区分样本的能力
2. 不变性
第二讲 距离分类器
1. 最近邻分类器:无模型参数,无学习过程
2. 近邻剪辑不改变分类界面
3. k近邻:
1. 优点:易于理解与实现;训练时间短;容易处理多分类;非参数化
非参数化:就是不用已知样本分布,直接观察数据进行拟合。
2. 缺点:测试阶段计算成本高;易受数据分布影响;高维数据会降低计算精度
4. 有数值计算时则需要归一化和标准化。
1. 归一化:把特征都缩放到相同的范围内
2. 标准化:把特征平移、缩放到符合某种分布。
3. 对比:
· 标准化对异常值更稳健
· 数据不服从正态分布时,归一化更合理
· 标准化在数据服从正态分布时更有帮助
· 何时进行特征缩放?先进行训练集测试集划分,后进行特征缩放,以避免数据泄露
5. PR曲线 - ROC曲线-下方为AUC 0~1 越大越好
6. 错误率 Pe = 分类错误个数/(总个数 — 拒识个数)
7. 准确率 ACC = 1 - Pe
8. 偏差:准不准; 方差:聚集不聚集
了解:敏感性(真阳率) = TP / (TP + FN) ——》患者被诊断出来
特异性(1 - 假阳率)= TN / (FP + TN)——》没有被误诊
第三讲 线性判别函数分类器 I
r0 = W0 / ||W||
r = g(x)/ ||W||
一般的准则函数只能收敛于局部极值,二次准则函数有唯一极值点,可以获得最优解
感知器算法:
准则函数:以错误分类样本到判别界面的‘距离’之和; 感知器算法例题,最后要会画图
第四讲 线性判别函数分类器II
LSME算法:最小平方误差准则
这里的求逆矩阵、转置矩阵还是要会算
由线性到非线性:
途径:广义线性判别函数、分段线性判别函数、多层感知器、核函数方法
第五讲 支持向量机
1. 函数间隔: b = |g(x)| = | wx + w0 |
2. 几何间隔: Vi = b / || w ||
3. 软间隔
SVM
1. 优点:
· 可以解决高维问题
· 能够处理非线性特征的相互作用
· 无局部极小值问题
· 无需依赖整个数据
· 泛化能力强
2. 缺点:
· 当观测样本很多时,效率低
· 对非线性问题没有通用解决方案
· 对核函数的高维映射解释力不强
· 常规SVM只支持2分类
第六讲 特征选择与特征提取 I
1. 维数诅咒
2. 特征选择:从原始特征中挑选对分类效果好的
· 目的:判断特征对分类的有效性
· 方法:类别可分性判据、分支定界法
3. 特征提取:将原始特征变为一组新的特征。新的特征更有利于分类
· 目的:根据特定的关系,对特征进行变化
· 方法:主成分分析(PCA)、Fisher判别分析
其中的J就是上面那几个J1、2、3、4
第七讲 特征选择与特征提取II
PCA:
1. 特征矢量正交
2. 变化后特征不相关
3. 冗余特征(特征值为0)
4. 降维误差估计
5. 例题:
6. LDA: LDA是有监督的,故充分保留了样本的类别可分性信息
第八讲 贝叶斯决策理论
1. 基础概念必须记清楚:
2. 贝叶斯定理例题:
3. 最小错误率例题:
4. 最小风险例题:被判断为W1的风险 = 风险2-》1 * P(x|W2)P(W2),哪个风险小判 断为哪一类
5. 贝叶斯本质:先验知识+数据——》更新已有知识并把后验概率作为新的知识
6. 采用0-1损失函数时:最小风险决策等价于最小错误率
第九讲 正态分布的贝叶斯分类器
1. 判别边界:两类判别区域的交界为判别边界,判别边界上两个判别函数值相同
第十讲 参数估计和非参数估计
1. 参数估计:Parzen窗
2. 非参数估计:
3. 最大似然估计(计算题 计算参数 sita)
第十一讲 高斯混合模型
1. 高斯混合模型(GMM)的目的是估计 P(x | wi)
第十一讲 隐马尔可夫模型(1)
1. 由矩阵画图和由图写矩阵
HMM核心问题:
1. 估值问题
2. 解码问题 O(M2T)
3. 学习问题
第十二讲 聚类分析
1. kmeans的题目要会做
2. 聚类流程:
输入模式——》特征选择与提取——〉相似性度量——》聚类算法————〉聚类结果
聚类有效性检验
3. 聚类:通过相似性推测簇标记
4. 分类:通过标签推测相似性
第十三讲 集成学习
作业题
一些对比概念:
1. 有监督学习和无监督学习的区别
1. 监督学习的训练样本有类别标签,分类与回归问题。目标是训练模型,使其能够对新的输入时预测输出。
2. 非监督学习则没有,聚类问题。目标是从未知数据集中找到内在规律与性质。
2. PCA和LDA的区别
1. PCA是无监督的成分分析,只考虑类别的整体分布,没有考虑样本类别可分性信息,选择 样本特征中对分类更有利的一部分作为新的特征,特征矢量正交
2. LDA是有监督的成分分析方法,保留了样本的类别可分性信息,寻找对分类最有利的线性映射,特征矢量不正交,当有C个类别时,特征组成最多C-1,当样本足够多时,Sw为非奇异矩阵。
3. 特征提取和特征选择的区别
1. 特征选择:判断特征对分类的有效性
2. 特征提取:将特征进行变化,新的特征对分类更有效
4. 感知器算法和最小平方误差算法的区别
1. 感知器算法:基于错误分类的个数,不断更新权矢量,减少误分个数。
2. 最小平方误差算法:根据预测值与真实值之间的误差,视图最小化误差
5. Bagging和Boosting区别
1. Bagging是并行的集成学习方法,基分类器之间没有关系
2. Boosting是串行的集成学习方法,下一个基分类器的学习要根据之间的学习来调整。
6. 聚类和分类的区别
1. 聚类:给出/构造相似性测试、通过相似性推测簇标记、只讨论对当前集合中样本进行聚类。
2. 分类:给出标签了、通过标签推测相似性、对样本集以外的其他样本进行分类
7. 参数估计和非参数估计的区别
1. 参数估计:需要的数据量大、无需知道任何关于分布的先验知识、直接用训练集D估计分布
2. 非参数估计:需要的数据量小、已知分布,但具体参数未知,任务为根据训练集D来估计分布的参数 sita。
8. 判别模型和产生式模型的区别
1. 判别模型:x为样本空间的点,根据判别函数g( x),来判断其属于哪一类
2. 产生式模型:x为随机变量,判断样本属于不同区域的概率特征
9. 多分类:一对一、一对多分类准则:
1. 一对一:存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识 ×
2. 一对多:任意 j != i, gij(x)>0 ;其余情况拒识 ×
3. 一对多:存在i, gi(x) > 0, gj(x) < 0, i != j; 其余情况拒识
5. 一对一:任意 j != i, gij(x)>0 ;其余情况拒识
10. 特征归一化、标准化
1. 归一化:将特征通过缩放平移变化到相同的范围中。
2. 标准化:通过平移缩使得特征满足某一分布
11. 标准化对异常值更稳健
1. 数据不服从正态分布时,归一化更合理
2. 标准化在数据服从正态分布时,更有帮助
模式识别2022回忆
1.
(1)计算准确率召回率f1
(2)计算正确率错误率
f1 = TP/(TP+1/(FP+TN))!!写错了
F1 = 2/ (1/召回率 + 1/查准率) = TP/(TP + (FN+FP)/2)
召回率 = TP / TP + FN
查准率(精确率) = TP/ (TP+FP)
正确率 = 正确的/(总的-拒识的)
错误率 = 1-正确率
2.
(1)监督学习和非监督学习的区别
(2)用kmeans对样本分类
监督学习的训练样本有类别标签,分类与回归问题。目标是训练模型,使其能够对新的输入时预测输出。
非监督学习则没有,聚类问题。目标是从未知数据集中找到内在规律与性质。
kmeans样本分类
计算标签
更新个类别中心点
3.
(1)证明后验概率满足逻辑回归的分类面是线性
(2)求泊松分布的最大似然估计函数
lameta = 1/n * (sum xi)
4.
(1)画出HMM模型图(隐马尔可夫模型,模型图即使根据欧米茄、A、B画转化图)
(2)HMM估值问题—》计算题呗,估值和解码问题ppt计算题
5.
(1)感知器多分类算法中一对一和一对多的分类准则(多类别线性分类)
(2)感知器算法计算题
(3)SVM计算题
算出超平面后要会画图
svm计算题:
6.
(1)PCA降维和LDA降维哪些区别
(2)PCA计算题
区别:
PCA思想:建立新的坐标系,用更少的坐标重新表示数据。理想情况下可以完美恢复数据,PCA降维后各特征是不相关的(正交、独立),PCA是无监督的成分分析,它只考虑了样本集的整体分布,并没有使用类别信息
LDA降维后的特征非正交,有监督,需要标签(计算散布矩阵),新的坐标维数至多c-1维(c为类别数)。样本数多时,才能保证矩阵Sw是非奇异的。
PCA计算题:
2023回忆
Bagging流程
虽然最后成绩并不理想,但希望认真复习的同学都能有满意的成绩