学习记录
一、什么是模式识别
1.什么是模式?
粗略的说,存在于外部世界中每一个要识别的对象都可以称作是一个模式。
更准确的说,模式是指计算机通过对信号的采样、量化和处理之后得到的关于识别对象描述的一组属性集合。
2.什么是模式识别?
模式识别是一种从大量信息和数据出发,在专家经验和已有认识的基础上,利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别的过程。
二、主要研究内容
1.主要研究内容
模式识别的基本概念
PR问题的数学表示
基本PR系统的组成
解决PR问题的基本理论和方法
经典算法
一些最新进展和存在问题
2.基本概念
样本:待研究对象的个体,包括性质已知或未知的个体。
类别:将所研究的样本性质离散化为有限的类别,认为同一类的样本在该性质上是不可区分的。
特征:样本的任何可区分的(且可观测的)方面,包括定量特征和定性特征,一般最后转化为定量特征。
特征向量:样本的所有特征组成的n维向量,是样本在数学上的表达。
特征空间:特征向量所在的n维空间,每一个样本(特征向量)是该空间中的一个点,一个类别是该空间中的一个区域。
分类器:能够将每个样本都分到某个类别中去(或者拒绝)的计算机算法。
Decision region:分类器将特征空间划分维若干区域(决策域)。
Decision boundary:不同类别区域之间的边界称作分类边界、决策边界或分类面、决策面。
三、模式识别方法
1. 识别方法分类(Ⅰ)
基于知识的方法:根据已知的对研究对象的认识,整理出若干描述特征和类别间的关系的准则,建立一定的推理系统,对未知样本通过知识推理决策其类别。
基于数据的方法:在确定了描述样本所采用的特征之后,收集一定数量的已知样本,用这些样本作为训练集来训练一定的分类器,使之在训练后能够对未知样本进行分类。
2.识别方法分类(Ⅱ)
鉴别模式:不同类别的样本在特征空间中位于不同的区域。通过训练样本集学习分类函数g(x),使得g(x)对于不同区域的样本输出不同的值,据此进行分类(识别)。
产生式模型:模式是分布在特征空间的一个随机矢量,每个类别的模式可能出现在空间任意一点,只不过出现的概率不同。根据该点属于哪个类的概率更大来判别其类别属性。
3.有监督学习vs无监督学习
有监督PR(Pattern Recognition):
a.给出若干已知答案的样本(训练样本)
b.有机器从这些样本中进行学习(训练)
c.学习的目的在于从这些样本中总结规律,使之能够对新的样本进行判断--产生分类器
无监督PR:
a.只有未知答案的样本
b.由机器从这些样本中进行学习(自学习)
c.学习的目的在于从这些样本中发现规律,这种规律应该是某种固有的关系,或者依据这种规律对对象的分类有某种功用。
d.聚类