当前电子鼻系统数据处理中常用的模式识别技术
当前电子鼻数据处理中所采用的模式识别算法主要包括k近邻法(k-Nearest Neighbor ,k-NN)、聚类分析(Cluster Analysis ,CA)、判别分析(Discriminant Analysis, DA)、主成分分析(Principal Component Analysis, PCA)、反向传播人工神经网络(Back-Propagation Artificial Neural Networks, BP-ANN)、概率神经网络(Probabilistic Neural Network, PNN)、学习向量量化(Learning Vector Quantization, LVQ)、自组织映射(Self-Organizing Map, SOM)等。其中PCA和BP-ANN应用最为广泛。上述模式识别算法按输入输出之间的关系可分为线性算法(k-NN、CA、DA、PCA)和非线性算法(BP-ANN、PNN、LVQ、SOM)两类。线性算法只能实现输入到输出的线性映射,它们都是基于统计理论而发展起来的。非线性算法,顾名思义,可实现输入到输出的非线性映射,与神经网络理论有关,由于这类算法能实现更复杂的映射关系,所以通常其识别效果要优于线性算法。模式识别算法还可以按其它方式进行分类,如按是否建立模型可分为基于模型的算法(如PCA)和非基于模型的算法(如SOM、BP-ANN等),按训练过程中是否有教师样本可分为带监督学习的算法(如BP-ANN、LVQ等)和无监督学习的算法(如k-NN、SOM等)。
一、基于统计理论的模式识别算法
这类算法包括k-NN、CA、DA和PCA等,它们的共同特点是分类主要利用样本间的相似性(一般为距离)、假设输入信号与输出类别之间存在线性关系以及只能构造线性的分类边界等。
1.1 k-NN
近邻法(NN)是一种最简单的非参数模式识别方法,它主要依据样本间的多维空间距离来实现分类。令目标集Dn={x1,x2,…,xn},其中每一个样本xi所属的类别均已知(已标记)。对于测试样本x,在集合Dn中距离最近的样本标记为