有序样品的最优分割算法及其在Matlab 中的实现
一、 有序样品聚类——最优分割的概念
地质数据中,有些样品有一定的排列顺序,如沿地层剖面采集的岩石标本,由钻孔取得的岩芯样品,由测井曲线所得的数据,由岩体中心到围岩的蚀变剖面的样品等,它们是有序地质变量,在对这些有序样品进行分类时,不能打乱样品的前后次序。所以, 一些不考虑样品排列顺序的数学处理方法,对此并不适用。有序样品的聚类分析就是对有序样品进行分段的统计方法。对n 个有序样品进行分割,就可能有2n-1种划分方法,这每一种分法成为一种分割。在所有的这些分割中,有一种分割使得各段内部之间差异性最小,而短语段之间差异性最大。这种对n 个样品分段并使组内离差平方和最小的分割方法,成为最优分割法。
这类问题的提法如下:
设有一批(N 个)按一定顺序排列的样品,每个样品测得p 项指标,其原始资料矩阵:
X (p ×N ) = x 11x 12?x 1N x 21
x 22?x 1N ?
???x p1x p2?x pN
其中元素x
ij 表示第j 个样品的第i 个指标的观测值。现在要把此N 个样品按顺序(不破坏序列的连续性)进行分割(分段或者分类)。其所有可能的分割法共有
C 1N-1+C 2N-1+ C 3N-1+…+C N-1N-1 = 2N-1-1
种。现在要求在所有分割中找出一种分割法,这种分割法使得各段内样品之间的差异最小,而各段之间的差异最大。
各段内部差异最小,即各段内数值变化最小,段内数值变化可用变差或者极差来表示,比如样品段{x i 、x i+1、x i+2、…、x j }:
变差:
d ij = [x α?x j
α=i (i,j)]2 x i,j =1 x αj
α=1
d ij 表示样品段{x i 、x i+1、x i+2、…、x j }内样品间的差异情况,d ij 小表示段内各样品之间数值比较接近,反之,d ij 大表示段内各样品数值之间的差异大。
极差:
d ij = (max i ≤β≤j x αβ?min i ≤β≤j x αβ)p
α=1
对于单指标情况,则