向量的相似度
考虑M个类型的模式,它们分别记作,编号随意。假定通过已知类型属性的观测样本,业已抽取出M个样本模式向量。给定一任意的未知模式向量,希望判断它归属于哪一类模式。这个问题称为模式分类,它是模式识别的基本问题之一。模式分类的基本思想是将未知模式向量同M个样本模式向量进行比对,看与哪一个样本模式向量最相似,并据此作出模式分类的判断。
假定分别作为术知模式向量和已知样本模式向量之间的相似关系的符号。以 与的相似关系为例,若
则称未知模式向量 与样本模式向量更相似。
相似度(similarity)或相异度(dissirmilarity ):
最简单和最直观的相似度是两个向量之间的Euclidean距离。
未知模式向量与第主个原象模式向量之间的 Euclidean距离记作,定义为
Mahalanobis距离
令
代表N个样本模式向量的均值向量。
再令
表示N个样本模式向量的协方差矩阵。
从未知模式向量到均值向量之间的Mahalanobis 距离定义为
从第主个样本模式向量到均值向量的 Mahalanobis 距离定义为
根据近邻分类法,将未知模式向量归为满足
的近邻所属的模式类型。
两个向量之间的相似度的测度不一定局限于距离函数。两个向量的夹角的余弦函数
若,成立,则认为未知模式向量与样本模式向量最相似。上式的变型
称为Tanirnoto测度。
待分类的信号称为目标信号,分类通常是根据菜种物理或几何概念进行的。令X为目标信号,代表第i类目标的分类概念。于是,可以有这种的关系:
这类有效关系一般用目标–概念距离(object-concept distance)描述420。因此,若日标–概念距离最小,则将X归为第i类目标;。