模式识别与机器学习学习笔记（一）

Rise9z

已于 2023-05-10 21:48:18 修改

阅读量1.3k

点赞数 2

分类专栏：模式识别和机器学习文章标签：机器学习笔记学习

于 2023-05-06 18:19:59 首次发布

本文链接：https://blog.csdn.net/qq_63647674/article/details/130528861

版权

模式识别和机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

第一章、概论

模式识别

一般指的是对模式的区分和认识，把对象根据其特征归到若干类别中的适当一类。

一、基本术语（名词解释）

模式：指需要识别且可测量的对象的描述。这些对象与实际的应用有关。

如：人脸识别的模式——每幅人脸图像

模式识别：利用机器（计算机）模仿人脑对现实世界各种事务进行描述、分类、判断和识别的过程

样本（sample）：所研究对象的一个个体。

样本集（sample set）：若干样本的集合。

类与类别（class）：在所有样本上定义的一个子集，处在同一类的样本在我们所关心的某种性质上是不可区分，即有相同的模式。

特征（features）：指用于表征样本的观测。

已知样本（known samples）：指事先知道类别标号的样本。

未知样本（unknown samples）：指类别标号未知但特征已知的样本。

所谓模式识别的问题，就是用计算的方法根据样本的特征将样本划分到一定的类别中去。

二、解决模式识别问题的两种方法

1.基于知识的模式识别方法

其主要是专家系统为代表的方法，一半归在人工智能的范畴中，其基本的思想是，根据人们已知的（从专家那里收集整理的）关于研究对象的知识，整理出若干描述特征与类别间关系的准则，建立一定的计算机推理系统，对未知样本通过这些知识推理决策其类别。

2.基于数据的模式识别方法 ——基于统计的模式识别

其基本的思想是，收集一定数量的已知样本，用这些样本作为训练集来训练一定的模式识别机器，使之在训练后能够对未知样本进行分类。

//这一函数被叫做 分类器 （在第五章会学到线性分类器）。建立分类器的过程也叫做机器学习。

三、基于数据的机器学习

1.基于数据的机器学习的工作流程：

1）确定样本的特征；

2）收集已知样本；

3）训练模式识别器；

4）对未知样本进行分类。

2.基于数据的机器学习的基本思想：

G表示从对象观测特征的过程，向量 x 表示特征，y表示我们所关心的对象的性质；

S表示决定 x 和 y 之间关系的系统，（如果知道其内部的机理，就可以用基于知识的方法）

用我们一定数量的已知样本进行训练学习机器LM，建立实现从特征向量x判断类别y’的一个数学模型，用来对未知样本计算（预测）其类别。

四、模式识别的研究范畴

对于这两种方法的认识，需要知道

基于数据的模式识别方法，适用于我们已知对象的某些特征与我们所感兴趣的类别性质有关系，但无法确切描述这种关系的情况。

若分类和特征之间的关系可以完全确切地描述出来，采用基于知识的模式识别方法可能更有效

若分类和特征之间的两者的关系完全随机，即不存在规律性的联系，应用模式识别也无法得到有意义的结果。

比如，我看到了一只白色的小动物很喜欢吐着舌头微笑，那我们想知道它的品种是不是我所喜欢的萨摩耶？

那我们会遇到几个问题：

（1）问题本身的不确定性：是哪一品种的萨摩耶？

（2）样本间的异质性：

有的样本中萨摩不吐舌头，有的样本中萨摩毛发不是纯白，而且样本数量越多，异质性越大。

（3）观测数据的不准确性：那个小动物是小狗吗？有可能是其他小猫，小兔子...

在这样的情况下，可以收集一定数量的有关于萨摩耶的局部特征作为数据集，进行训练，得到一个关于萨摩耶的模式识别机器（模型），使它能能够在训练之后对我们的未知样本（一只白色的小狗很喜欢吐着舌头）进行分类，判断他是否是一只萨摩。（例子只是我自己的理解，有错指正=-=）

五、监督学习和非监督学习

通过上面的例子，我们可以引出两种不同的情况的学习——监督学习和非监督学习。

监督模式识别：我们已知要划分的类别，并且能够获得一定数量的类别已知的训练样本，这种情况下建立分类器的问题属于监督学习问题，我们称为监督模式识别。

非监督模式识别：当我们不知道划分的是什么类别，更没有类别已知的样本用作训练，（很多情况下我们甚至不知道有多少类别）。根据样本特征将样本聚成几个类，是属于同一类的样本在一定意义上是相似的，而不同类之间的样本则有较大差异，这种学习过程被称为非监督模式识别（统计中称为聚类，所得到的类别也称为聚类）。

ps：也可以理解监督学习和非监督学习为“有导师学习”和“无导师学习”。