灰色关联分析
1、概述
一般的抽象系统,如社会系统、经济系统、农业系统、生态系统等都包含有众多的因素来共同决定了该系统的发展态势,所以系统分析就是要找出哪些是主要因素,那些事次要因素,那些因素对系统发展的影响最大,那些因素对系统发展的影响最小,那些因素对系统发展起推动作用不要强化发展,哪些因素对系统发展起阻碍作用要加以抑制,数理统计中的回归分析、方差分析、主成分分析都是用来进行系统分析的方法,但是这些方法对数据的要求非常的高(要求要有大量的数据、样本要服从某个典型的概率分布、计算量大、人为影响了数据),而灰色关联预测对样本量的大小和有无规律都同样适用,并且计算量小,十分方便。
2、基本思想
是根据曲线几何形状的相似程度来判断其联系是否紧密,曲线越接近,相应蓄力之间的关联度就越大,反之就越小。
用映射量来间接的反应表征系统行为:对一个抽象的系统或现象来进行分析,首先要选准反应系统行为特征的数据序列,这个就被称为系统行为的映射量,用映射量来间接的表征系统行为。
举个例子
用国民平均接受教育的年数来反映教育的发达程度,这里的映射量就是指国民平均接受教育的年数。
3、灰色关联分析的计算步骤
(1)对数据进行预处理
对母序列和子序列中每个指标进行预处理的方式:先求出每个指标的均值,在用该指标中的每个元素除以起均值
- 进行预处理的目的:去掉不同纲量的影响,缩小变量的范围间话计
- 母序列(又称参考序列、母指标):能反映系统行为特征的数据序列,类似因变量。
- 子序列(又称比较数列、子指标):影响系统行为的因素组成的数据序列,类似与自变量。
例如原矩阵为:
X0(1) | X1(1) | X2(1) | X3(1) |
---|---|---|---|
X0(2) | X1(2) | X2(2) | X3(2) |
X0(3) | X1(3) | X2(3) | X3(3) |
X0(4) | X1(4) | X2(4) | X3(4) |
令X0,X1 , X2 , X3分别为各列的均值,
进行预处理后:
X0(1) / X0 | X1(1) / X1 | X2(1) / X2 | X3(1) / X3 |
---|---|---|---|
X0(2) / X0 | X1(2) / X1 | X2(2) / X2 | X3(2) / X3 |
X0(3) / X0 | X1(3) / X1 | X2(3) / X2 | X3(3) / X3 |
X0(4) / X0 | X1(4) / X1 | X2(4) / X2 | X3(4) / X3 |
(2)计算子序列中各个指标与母序列的关联系数
令:
母序列:X0 = (X0(1) , X0(2) , X0(3) , …X0(n) )T (这里的T表示转置
子序列:X1 = (X1(1) , X1(2) , X1(3) , …,X1(n) )T
X2 = (X2(1) , X2(2) , X2(3) , …,X2(n) )T
.
.
.
Xm = (Xm(1) , Xm(2) , Xm(3) , …,Xm(n) )T
将每一个指标都与母指标进行相减,即做 | X0 - X1 |操作,得到一个新的矩阵。
比如原矩阵为
X0(1) | X1(1) | X2(1) | X3(1) |
---|---|---|---|
X0(2) | X1(2) | X2(2) | X3(2) |
X0(3) | X1(3) | X2(3) | X3(3) |
X0(4) | X1(4) | X2(4) | X3(4) |
在每个指标与母指标进行相减后得到的新矩阵为:
X0(1) - X1(1) | X0(1) - X2(1) | X0(1) - X3(1) |
---|---|---|
X0(2) - X1(2) | X0(2) - X2(2) | X0(2) - X3(2) |
X0(3) - X1(3) | X0(3) - X2(3) | X0(3) - X3(3) |
X0(4) - X1(4) X0(4) - | X2(4) | X0(4) - X3(4) |
在新矩阵中去最大值,记:
两级最小差a = min(X0(k) - Xi(k))
两级最大差b = max(X0(k) - Xi(k))
(3)计算母指标与子指标的灰色关联度
这里的 β 指的是分辨系数,一般取0.5
4、举个例子来说明灰色关联分析一下在美赛中的应用
题目:哪一个因素对下河流的水质影响最大
第一步:
作图(用excel作图分析一下水质),并且做出一些分析:
含氧量和ph值有啥关系、植物营养性和细菌的基本呈线性关系啥的
第二步:
对指标进行正向化,因为这里有区间型、极小型指标,要将其正向化为统一类型的指标,一般是转化为极大型指标
第三步:
对正向化后的矩阵进行预处理,求出每一个指标的平均值,并用每个数据除以均值,得到新的一个矩阵 Z
第四步:
计算各个指标与母指标的关联系数,采用公式 |X0 - Xi| 对每个数据进行处理,得到一个新的矩阵,并选出极大和极小值a、b
第五步:
计算灰色关联度,采用公式
最后得出的灰色关联度在经过归一化后即为各个指标的权重。
到这一步得出的权重,谁的值大,那么哪个指标对系统的影响就大。
5、讨论
(1)当样本个数n较大时,一般使用标准化回归,当样本数n较少时,才使用灰色关联分析
(2)如果序列中有多个指标时,例如y1,y2都是母序列,x1,x2,x3,x4…是子序列,则首先计算y1对x1,x2,x3,x4…的灰色关联度进行分析,在计算y2的灰色关联度进行分析