引入
一般的抽象系统,如社会系统、经济系统、农业系统、生态系统、教育系统等都包含有许多种因素,多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中,哪些是主要因素,哪些是次要因素;哪些因素对系统发展影响大,哪些因素对系统发展影响小;哪些因素对系统发展起推动作用需强化发展,哪些因素对系统发展起阻碍作用需加以抑制.…这些都是系统分析中人们普遍关心的问题。例如,粮食生产系统,人们希望提高粮食总产量,而影响粮食总产量的因素是多方面的,有播种面积(以及水利、化肥、土壤、种子、劳力、气候、耕作技术和政策环境等。为了实现少投入多产出,并取得良好的经济效益、社会效益和生态效益,就必须进行系统分析。
数理统计中的回归分析、方差分析、主成分分析等都是用来进行系统分析的方法。这些方法都有下述不足之处:
(1)要求有大量数据,数据量少就难以找出统计规律;
(2)要求样本服从某个典型的概率分布,要求各因素数据与系统特征数据之
间呈线性关系且各因素之间彼此无关,这种要求往往难以满足;
(3)计算量大,一般要靠计算机帮助;
(4)可能出现量化结果与定性分析结果不符的现象,导致系统的关系和规律
遭到歪曲和颠倒。
灰色关联分析方法弥补了采用数理统计方法作系统分析所导致的缺憾。它对
样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。
灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系
是否紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。
对一个抽象的系统或现象进行分析,首先要选准反映系统行为特征的数据序
列,称为找系统行为的映射量,用映射量来间接地表征系统行为。例如,用国民平均接受教育的年数来反映教育发达程度,用刑事案件的发案率来反映社会治安面貌和社会秩序,用医院挂号次数来反映国民的健康水平等。有了系统行为特征数据和相关因素的数据,即可作出各个序列的图形,从直观上进行分析。
用一个实例说明分析步骤
1.画统计图
2.确定分析数列
母序列(母指标):能反映系统行为特征的数据序列,类似于因变量Y
子序列(子指标):影响系统行为的因素组成的数据序列,类似于自变量X
在本例中,国内生产总值就是母序列,第一、第二和第三产业就是子序列
3.对变量进行预处理
目的:去除量纲,缩小度量范围简化计算
对母序列和子序列的每个指标进行预处理:
先求出每个指标的均值,再用该指标中的每个元素都除以其均值
4.计算子序列中各个指标与母序列的关联系数和灰色关联度
matlab代码
load data1.mat%导入数据
%数据预处理
%求每一列的均值
Mean=mean(data);
%每个元素除以均值,repmat扩充均值和data一样大
new_data=data./repmat(Mean,size(data,1),1);
disp('预处理后的数据矩阵为:');
disp(new_data);
Y=new_data(:,1)%母序列
X=new_data(:,2:end);%子序列
%计算|X0-Xi|
Abs=abs(X-repmat(Y,1,size(X,2)))
a=min(min(Abs))%计算两极最小差
b=max(max(Abs))%计算两极最大差
rho=0.5;%分辨系数,一般取0.5
gamma=(a+rho*b)./(Abs+rho*b)%关联系数
res=mean(gamma)%灰色关联度
disp('子序列的各指标的灰色关联度为:')
disp(res)
结果
根据灰色关联度判断国内生产总值受到第三产业影响最大
注意:
样本个数n较大时一般用标准化回归,较少时,可以使用灰色关联分析
如果母序列中有多个指标,例如Y1,Y2
可以先计算Y1和X1,X2…的灰色关联度,再计算Y2和X1,X2…的灰色关联度
拓展
灰色关联分析用于综合评价,有点类似于Topsis评价模型
步骤
1. 对指标正向化,相关概念参考另一篇博客Topsis模型
2. 对正向化后的矩阵进行预处理
3. 将预处理后的矩阵每一行取出最大值构成一个虚构的母序列
4. 计算各个指标与母序列的灰色关联度
5. 计算各个指标的权重,相当于将灰色关联度归一化处理
6. 计算每个评价对象的得分
7. 对得分进行归一化
实例
matlab代码
%区间型转换成极大型
function [new_X]=Inter2Max(x,a,b)
rows=size(x,1);%x的行数
M=max([a-min(x),max(x)-b]);
new_X=zeros(rows,1);
for i=1:rows
if x(i)<a
new_X(i)=1-(a-x(i))/M;
elseif x(i)>b
new_X(i)=1-(x(i)-b)/M;
else
new_X(i)=1;
end
end
end
%中间型转换为极大型
function [new_X]=Mid2Max(x,bestx)
M=max(abs(x-bestx));
new_X=1-abs(x-bestx)/M;
end
%极小型转为极大型
function [new_X]=Min2Max(x)
new_X=max(x)-x;
end
%正向化处理函数
function [new_X]=Normalization(x,type,i)
if type==1
disp('极小型正向化:')
new_X=Min2Max(x);
elseif type==2
disp('中间型正向化:')
bestx=input('输入最好的中间值:');
new_X=Mid2Max(x,bestx);
elseif type==3
disp('区间型正向化:')
a=input('输入区间下界:');
b=input('输入区间上界:');
new_X=Inter2Max(x,a,b);
else
disp('输入有误')
end
end
main
%加载数据(事先将数据导入data.mat文件)
load data.mat
%X是数据矩阵
[n,m]=size(X);
disp(['有' num2str(n) '个评价对象,' num2str(m) '个评价指标']);
judge=input('指标是否需要经过正向化处理,1是,2否:');
if judge==1
targetCol=input('输入需要正向化的指标所在列,例如[1,2,3]是1,2,3列:');
type=input('输入需要处理列的对应指标类型,例如[1,2,3],1极小型,2中间型,3区间型:');
for i=1:size(targetCol,2)
%正向化处理,参数1是要正向化处理的列向量,参数2是该列的指标类型,参数3是正在处理原始矩阵的哪一列
X(:,targetCol(i))=Normalization(X(:,targetCol(i)),type(i),targetCol(i));
end
disp('正向化后的矩阵X=')
disp(X)
end
judge2=input('是否需要加入权重,1是,2否:');
if judge2==1
%权重可以由层次分析法或熵权法获得,和为1
weight=input('输入对应指标的权重向量例如3个指标[0.2,0.4.0.4]:')
else
%默认权重相同,为1/m
weight=ones(1,m)./m;
end
%数据预处理
%求每一列的均值
Mean=mean(X);
%每个元素除以均值,repmat扩充均值和data一样大
new_data=X./repmat(Mean,size(X,1),1);
disp('预处理后的数据矩阵为:');
disp(new_data);
%构造母序列和子序列,取每行的最大值
Y=max(new_data,[],2);
Xi=new_data
%计算得分
Abs=abs(X-repmat(Y,1,size(X,2)))
a=min(min(Abs))%两级最小查
b=max(max(Abs))%两极最大差
rho=0.5;%分辨系数
gamma=(a+rho*b)./(Abs+rho*b)%关联系数
weight=mean(gamma)/sum(mean(gamma))%权重
%未归一化得分
score=sum(Xi.*repmat(weight,size(Xi,1),1),2);
disp('最后得分为:')
S_stand=score/sum(score)
%降序排序,得到结果和索引
[S_sorted,index]=sort(S_stand,'descend')
结果