统计模式识别学习笔记

最新推荐文章于 2021-12-20 17:07:52 发布

翡翠的风吟

最新推荐文章于 2021-12-20 17:07:52 发布

阅读量408

点赞数 2

分类专栏：统计模式识别学习笔记文章标签：模式识别机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_44868018/article/details/107883225

版权

统计模式识别学习笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本系列博客作为《统计模式识别》（Andrew R. Webb所著）一书的学习笔记。作者本人在做视觉SLAM时，偶有所想，遂动笔记录了统计模式识别的学习过程。在此之前，做过一段时间的深度学习和目标检测，希望能和诸位同好者，共同学习、共同进步。

一、绪论

统计模式识别一词概括了问题描述、数据采集、识别分类、结果评价、解释的各个阶段。

统计模式识别实际上是研究数据的一类科学，和计算机科学联系紧密。信息时代，每天都会诞生大量的数据，在这里我想借用师兄一句话。

我曾经问过师兄，深度学习是什么？

或者说这类研究数据的科学做的是什么，意义何在？

他是这样回答的， 深度学习，深度挖掘潜藏在数据中的内涵。 那换成这本书中的语言，是这样的：

通过对数据中所蕴含的模式、变化趋势、异常现象的自动识别及识别结构的描述，协助人们认知它们。

分析的方法和研究对象有着密切的联系。 但是，世界千奇百怪，在我们认知世界的过程中习惯将事物分类，（注意我在这里讲到了认知这个概念，或许在以后我在进行深度学习的讲解时会对这个词汇进行补充），这是我们学习的一种方式。而在我们遇到新事物的时候，常常会思考，这类事物和我以往认知到的是否有相同之处。简而言之，我们习惯将事物分类。

所以，也正如作者所说，这本书的主题可以简单归纳为分类这个词，包括有监督分类和无监督分类。当我看到这两个词的时候，第一反应是有监督学习和无监督学习，事实上在这本书的论题中两者的差别也并不是很大。

有监督分类是有分类信息的分类（判别）器设计，用机器学习中话来讲就是有标签label。无监督学习是没有分类信息的分组（聚类），也就是没有label。

接下来谈谈它的发展，作为一个研究领域，模式识别迅速发展于20世纪60年代。它是一个多领域交叉的学科，包括字符的自动识别、医疗诊断等经典问题，以及个人信用评分、商品销售分析、信用卡交易分析等关于数据挖掘的新问题。模式识别广泛的应用，吸引了众多的研究力量，产生出许多新方法，推动该科学进一步发展。

正如前面讲到的，在认知世界的过程中，我们习惯将事物分类。所以，作为同样认知世界的一种手段，它也激发了一些人对人工智能的研究兴趣。作者本人当初接触模式识别，是因为偶然间发现自己做的图像识别同自然语言处理、神经网络等都和模式识别都有联系，故而产生好奇心，在半年前买了这本书。

书中谈到了这样一个观点，机器学习和统计模式识别有哪些不同。书中是这样描述的，机器学习是研究如何使机器适应环境和通过范例进行学习的一门学科。 在这本书里的论题可以归于机器学习的范畴。尽管机器学习更多地把重点放在计算的精深方法而不是统计方法上两者还是有着许多共同点的。这里，我还是想说一点自己的想法。

在周志华的西瓜书中说到，时下机器学习的热潮是统计机器学习。 当然感兴趣的朋友也可以买一下周志华的《机器学习》和李航的《统计学习方法》，这两本都是比较经典的人工智能书籍了。也正如大家熟知的，自下而上的机器学习，等同于白痴。刚才说了一句题外话，所以我认为机器学习的研究方向还是极有可能强调统计方法的，毕竟人家能用了就是因为概率和数理统计。

数学模型

统计模式识别，首先来看一下模式。模式被表示为p维的数据向量:
$\vec{x}=(x_1,...,x_p)^T$
$^T$ 表示向量的转置，向量分量 $\f is defined as f(#1) using the macro x_i$ 表示对观测对象的第i个特征的观测值。设识别问题含有C个类，记为 $\varpi_1,...,\varpi_C$ ，则关于每一个模式 $\f is defined as f(#1) using the macro \vec{x}$ 的分类变量记为 $z$ ， $z$ 表示 $\f is defined as f(#1) using the macro \vec{x}$ 的类别，若 $z$ = $i$ ，则模式 $\f is defined as f(#1) using the macro \vec{x}$ 属于 $\varpi_i$ 类， $i\in\{1,...,C\}$ 。
分类器

所以，上述过程本质上是先提取特征，然后进行分类。 $z$ 实际上就相当于label。所以，这本书的内容也是围绕着“分类器设计”和“分类器设计规则”这一主题展开的。关于特征的选取，不同的研究对象有着不同的方法。

分类器也包括了决策树、神经网络、支持向量机和线性判别函数。

分类器的设计就是用训练集确定分类器的内部参数，由此形成的分类器可用于估计未知样本 $\vec{x}$ 的类别属性。从训练集中学习模型的过程是归纳过程，而用训练集而得的模型去识别未知模型的过程则是演绎过程。

文章写到这里，已经是深夜了。在学习深度学习和视觉SLAM的过程中，我通过CSDN，解决了很多问题，在此我非常感谢乐于分享知识的各位站友。你们是我的动力来源。此外，我还要感谢师兄马泽远。是他，指引了我的大学生活。还有，我要感谢一个小学妹，是她第一个关注了我，至少我写的文章有人看了。最后，我要感谢实验室项目组的老师、师兄师姐还有朋友们。

闲言少叙，路过的朋友可以点一下关注。今后还会继续更新这个系列，欢迎各位进行学术交流与指导。你们就是我写文的动力，希望能和各位读者一起共同进步、共同成长。