模式识别与机器学习·第一章——概论

开篇

这系列博客主要用来回忆研一的模式识别与机器学习课程的相关内容,大概有十几篇吧,估计需要一个很长的周期来整理,整完的部分目录如下,我也会逐步添加:

  1. 第一章·概论
  2. 第二章·

模式识别

模式

模式识别,目标对象自然是模式了,课程给出的模式定义如下:

广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。
模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。

简单的总结,模式具有以下三个直观的特性:

  1. 可观察性
  2. 可区分性
  3. 相似性

识别

模式识别实际上是一个无处不在的概念,比如我们常说的 “ 物以类聚,人以群分 ” 。
人类认识世界的时候会自然的代入模式识别的能力,比如我们会认出一个桌子是桌子而不是一把椅子,我们衣食住行的生活每一步都要经过一个 “ 接受信息 - 模式识别 - 作出决策 - 执行行为 ” 的过程。
人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。

机器学习

就不多写了,直接引用老师给的概念吧。

研究如何构造理论、算法和计算机系统,让机器通过从数据中学习后可以进行如下工作:分类和识别事物、推理决策、预测未来等。
Wiki: “The design and development of algorithms that take as input empirical data and yield patterns or predictions that generated the data.”

研究目的

利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。
最终目标是让计算机具有甚至超越人类和动物的既有识别能力。

Y = F(X)
X的定义域取自特征集
Y的值域为类别的标号集
F是模式识别的判别方法

机器学习利用大量的训练数据可以获得更好的预测结果。

发展历史

模式识别简史

  • 1929年 G. Tauschek发明阅读机,能够阅读0-9的数字。
  • 30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。
  • 50年代 Noam Chemsky 提出形式语言理论——傅京荪 提出句法结构模式识别。
  • 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用。
  • 80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。
  • 90年小样本学习理论,支持向量机也受到了很大的重视。

21世纪以来,模式识别研究呈现一些新特点

  • 贝叶斯学习理论越来越多地用来解决具体的模式识别和模型选择问题,产生了良好的分类性能。
  • 传统的问题,如概率密度估计、特征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出。
  • 模式识别和机器学习相互渗透,特征提取和选择、分类、聚类、半监督学习、深度学习等问题日益成为二者共同关注的热点。
  • 模式识别系统开始越来越多地用于现实生活,如车牌识别、手写字符识别、生物特征识别等。

机器学习简史

机器学习的发展与模式识别密切相关。

  • 第一阶段是在50年代中叶到60年代中叶,属于热烈时期。研究的是以40年代兴起的神经网络模型为理论基础的“没有知识”的学习。模式识别发展的同时形成了机器学习的两种重要方法:判别函数法和进化学习
  • 第二阶段是在60年代中叶至70年代中叶,被称为机器学习的冷静时期。研究的目标是模拟人类的概念学习阶段,并采用逻辑结构或图结构作为机器内部描述。神经网络学习机因理论缺陷转入低潮。
  • 第三阶段是从70年代中叶至80年代中叶,称为复兴时期。从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法(如模式方法推断)。

机器学习的最新阶段始于1986年。机器学习有了更强的研究手段和环境,出现了符号学习、神经网络学习、进化学习和强化学习等。
机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。
结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。
各种学习方法(归纳学习、连接学习、强化学习、深度学习)的应用范围不断扩大,一部分已形成产品。尤其是深度学习的发展方兴未艾,正在人工智能等领域发挥越来越重要的作用。

系统方法

系统目标

  • 模式识别系统的目标:在特征空间和解释空间之间找到一种映射关系,这种映射也称之为假说。
    • 特征空间:从模式得到的对分类有用的度量、属性或基元构成的空间。
    • 解释空间:将c个类别表示为在这里插入图片描述
      其中 Ω 为所属类别的集合,称为解释空间。
  • 机器学习的目标:针对某类任务T,用P衡量性能,根据经验来学习和自我完善,提高性能。

假说的获得

监督学习、概念驱动或归纳假说:

  • 在特征空间中找到一个与解释空间的结构相对应的假说。在给定模式下假定一个解决方案,任何在训练集中接近目标的假说也都必须在“未知”的样本上得到近似的结果。
  • 依靠已知所属类别的训练样本集,按它们特征向量的分布来确定假说 (通常为一个判别函数),在判别函数确定之后能用它对未知的模式进行分类;
  • 对分类的模式要有足够的先验知识,通常需要采集足够数量的具有典型性的样本进行训练。

非监督学习、数据驱动或演绎假说:

  • 在解释空间中找到一个与特征空间的结构相对应的假说。这种方法试图找到一种只以特征空间中的相似关系为基础的有效假说。
  • 在没有先验知识的情况下,通常采用聚类分析方法,基于“物以类聚”的观点,用数学方法分析各特征向量之间的距离及分散情况;
  • 如果特征向量集聚集若干个群,可按群间距离远近把它们划分成类;
  • 这种按各类之间的亲疏程度的划分,若事先能知道应划分成几类,则可获得更好的分类结果。

系统的构成

模式识别系统的基本构成
在这里插入图片描述
数据获取:用计算机可以运算的符号来表示所研究的对象

  • 二维图像:文字、指纹、地图、照片等
  • 一维波形:脑电图、心电图、季节震动波形等
  • 物理参量和逻辑值:体温、化验数据、参量正常与否的描述

预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原

特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征

  • 测量空间:原始数据组成的空间
  • 特征空间:分类识别赖以进行的空间
  • 模式表示:维数较高的测量空间->维数较低的特征空间

分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别

  • 基本做法:在样本训练集基础上确定某个判决规则,使得按这种规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。

机器学习系统的基本构成
在这里插入图片描述
环境:是系统的工作对象(包括外界条件),代表信息来源。

  • 信息水平:相对于执行环节要求而言,由学习环节消除差距
  • 信息质量:实例示教是否正确、实例次序是否合理等

知识库:存储学习到的知识

  • 知识的表示要合理
  • 推理方法的实现不要太难
  • 存储的知识是否支持修改(更新)

学习环节:是系统的核心模块,是和外部环境的交互接口。

  • 对环境提供的信息进行整理、分析、归纳或类比,生成新的知识单元,或修改知识库。
  • 接收从执行环节来的反馈信号,通过知识库修改,进一步改善执行环节的行为。

执行:根据知识库执行一系列任务

  • 把执行结果或执行过程中获得的信息反馈给学习环节

小结

  • 基本概念
  • 发展简史
  • 主要方法
  • 系统构成
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值