模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法


声明: 部分图片来自于课程讲义

写在前面

本文仅作为课程的总结,可以作为考试复习的大纲,其中包含一些习题或者是往年的考试题目,作为练习,文中以[例题]样式标明。虽然大多是为了考试,还是加入了一些概念、推导,甚至是讨论、困惑,作为点缀和“警示”。

整理的顺序较乱,但已经尽力而为,大致是按照授课顺序整理的(整个课程的授课顺序就很迷惑,没有主线,可能是因为能讲的太多太杂)。

习题解答参考

声明:个人作业,仅供参考,请勿保存,禁止在其他网站转载!如有错误请务必在评论区指出,或联系sunzhihao_future@163.com,十分感谢!
https://blog.csdn.net/sunzhihao_future/article/details/122315786

模式识别经典算法

线性判别分析

感知器算法(赏罚机制)

贝叶斯决策问题

贝叶斯最小错误率判别

贝叶斯最小错误率判别:利用模式集的统计特性来分类,以使分类器发生错误的概率最小。对于两类模式集的分类,要确定 x x x是属于 ω 1 \omega_1 ω1类还是 ω 2 \omega_2 ω2类,要看 x x x是来自于 ω 1 \omega_1 ω1类的概率大还是来自 ω 2 \omega_2 ω2类的概率大。
[例题]
在这里插入图片描述
更正:预测特征为 A = 0 , B = 1 A=0, B=1 A=0,B=1的邮件是否为垃圾邮件。
[例题]
在这里插入图片描述
在这里插入图片描述

贝叶斯最小风险判别

贝叶斯最小风险判别:当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,就需要把最小错误概率的贝叶斯判别做一些修正,提出条件平均风险 r j ( x ) r_j(x) rj(x)。对M类问题,如果观察样本被判定属于 ω j \omega_j ωj类 ,则其条件平均风险为 r j ( x ) = ∑ i = 1 M L i j P ( ω i ∣ x ) r_{j}(x) = \sum_{i=1}^M L_{ij} P(\omega_i|x) rj(x)=i=1MLijP(ωix),其中 L i j L_{ij} Lij为将本应属于 ω i \omega_i ωi类的模式判别成属于 ω j \omega_j ωj类的是非代价。

[例题]
在这里插入图片描述
更正:其中 λ i j \lambda_{ij} λij表示将本应属于 ω i \omega_i ωi类的模式判别成属于 ω j \omega_j ωj类所带来的风险损失。

正态分布模式的贝叶斯分类器

两类问题且其类模式都是正态分布的情况:
在这里插入图片描述
在这里插入图片描述

线性判别函数

对于 M M M类模式的分类,多类情况1需要 M M M个判别函数,而多类情况2需要 M ∗ ( M − 1 ) / 2 M*(M-1)/2 M(M1)/2个判别函数,当 M M M较大时,后者需要更多的判别式(这是多类情况2的一个缺点)。

采用多类情况1时,每一个判别函数都要把一种类别的模式与其余 M − 1 M-1 M1种类别的模式分开,而不是将一种类别的模式仅与另一种类别的模式分开。由于一种模式的分布要比 M − 1 M-1 M1种模式的分布更为聚集,因此多类情况2对模式是线性可分的可能性比多类情况1更大一些,这是多类情况2的一个优点。

特征提取与降维

PCA主成分分析(K-L变换)

一般特征的散布矩阵准则:
在这里插入图片描述

Fisher线性判别

考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别。但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开。

如何根据实际情况找到一条最好的、最易于分类的投影线,这就是Fisher判别方法所要解决的基本问题。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

机器学习经典模型

支持向量机

硬间隔支持向量机

Optimal Margin Classier: Dual Solution
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Linearly Separable SVM (Dual)
在这里插入图片描述
[例题]
在这里插入图片描述

逻辑回归模型

隐马尔科夫模型

[例题]
假设有3个盒子,分别装有不同数量的苹果(记为A)和桔子(记为O),其中盒子一中放有2个A,2个O;盒子二中放有3个A,1个O;盒子三中放有1个A,3个O;每次随机选择一个盒子并从中抽取一个水果,观测并记录看到的水果是哪种。但不幸的是,忘记去记录所选的盒子号码,只记录了每次看到的水果是A还是O。
(1) 请用HMM模型描述上述过程。
(2) 假如观测到水果序列为 x = {A,A,O,O,O},请给出最佳的盒子序列。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
[例题]
在下图所示的HMM模型中:
在这里插入图片描述

(1)采用前向算法计算序列“AGTT”出现的概率。
(2)计算“TATA”最可能出现的状态序列。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

聚类算法

基本理论

Minkowski距离:
在这里插入图片描述
余弦相似度:
在这里插入图片描述

经典聚类算法

K-means

在这里插入图片描述
在这里插入图片描述
如何选择K?
在这里插入图片描述
当不同的簇之间具有不同的尺寸、密度或者非球形时,K-means聚类效果不好。

高斯混合模型GMM

DBSCAN

DBSCAN是基于密度的聚类算法,其核心思想是将密度可达的点聚类为一个簇。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

降维

多维缩放MDS

在这里插入图片描述
在这里插入图片描述

等距离映射ISOMAP

测地线距离(Geodesic Distance)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全局嵌入方法与局部嵌入方法

在这里插入图片描述

半监督学习

通用想法:同时利用有标注数据和无标注数据学习。

三个假设

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多视角学习

在这里插入图片描述
在这里插入图片描述

概率图模型

经典概率图

在这里插入图片描述

[例题]
给定如下概率图模型,其中变量X2,X4 为已观测变量,请问变量量X1,X5 是否独立? 并用概率推导证明之.
在这里插入图片描述

集成学习

基本理论

No Free Lunch Theorem:没有任何学习算法可在任何领域总是产生最准确的学习器。
Occam‘s Razor:如无必要,勿增实体。

过拟合与欠拟合

当模型本身过于复杂时,特征和类别之间的关系中所有的细枝末节都被捕捉,主要的趋势反而在乱花渐欲迷人眼中没有得到应有的重视,导致过拟合(overfitting)的发生。反之,如果模型过于简单,它不仅没有能力捕捉细微的相关性,甚至连主要趋势本身都没办法抓住,这样的现象就是欠拟合(underfitting)。
在这里插入图片描述

偏差和方差

在这里插入图片描述
偏差来源于模型中的错误假设。偏差过高就意味着模型所代表的特征和标签之间的关系是错误的,对应欠拟合现象;
方差描述的是模型通过学习拟合出来的结果自身的不稳定性,方差过高意味着模型对数据中的噪声也进行了建模,对应着过拟合现象。

集成学习算法

Bootstrap

在这里插入图片描述

Bagging, Bootstrap aggregating

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Boosting

在这里插入图片描述

Adaboost

在这里插入图片描述
在这里插入图片描述

  • 12
    点赞
  • 152
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值