数学建模笔记——评价类模型之灰色关联分析

这一篇就简单介绍一下灰色关联分析吧。灰色关联分析主要有两个作用,一是进行系统分析,判断影响系统发展的因素的重要性。第二个作用就是用于综合评价问题,给出研究对象或者方案的优劣排名。

不过这里我只能简单介绍一下,更加深入的原理,可能需要我专门学习之后才能清楚地表达出来。不过应用起来倒不是很难,部分原理理解不清晰应该也不影响使用,就当作了解一个新方法吧。

事实上越往后学,例如多元回归分析、运筹学相关、时间序列分析、各类预测模型、聚类分类等等,都涉及到很多有难度的数学推导。我自己即使有所理解和学习,但想要比较简单易懂地表达出来,还是需要更长时间沉淀的。所以目前写学习笔记,就只能简单说明一下原理,然后讲一下傻瓜式应用了。等我理解得更加深入了,再回头把写得不够深入清晰的文章翻新一下吧。

好的,言归正传,讲一讲灰色关联分析吧~

灰色关联分析

“在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。”

以上内容摘自百度,大概就是这么回事。灰色关联分析的研究对象往往是一个系统。系统的发展会受到多个因素的影响。我们常常想知道,在众多的影响因素中,哪些是主要因素,哪些是次要因素;哪些因素影响大,哪些因素影响小;哪些具有促进作用,哪些具有抑制作用等等。

数理统计中常常使用回归分析、方差分析、主成分分析等来探究这个问题。但上述的方法有一些共同的不足之处。例如这些方法都要求大量的数据,数据小则结果没有太大意义;有时候还会要求样本服从某个特殊分布,或者出现量化结果与定性分析不符合的情况。而灰色关联分析则可以较好地应对这种问题。

灰色关联分析对样本量的多少和样本有无规律并没有要求(当然样本量也不能太少,就两、三个样本还分析什么),量化结果基本上与定性分析相符合。灰色关联分析的基本思想是,根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线形状越接近,相应序列之间的关联度就越大,反之就越小。

嗯,对于上述原理,简单翻译一下,就是研究两个或多个序列(序列可以理解为系统中的因素或者指标)构成的曲线的几何相似程度。越相似,越说明他们的变化具有某种紧密的联系,也就是关联度高。所以这个方法也几乎是从纯数据的角度去研究关联性,如果两个没啥关系的指标,在曲线形状上表现得极为相似,那灰色关联分析就会认为二者关联程度很高。当然这只是一个比较极端的例子,对于一般的数据或者系统,用曲线形状来衡量关联度,也是有一定的道理的。

进行系统分析

我们首先来介绍一下第一个应用,也是它的基本应用,系统分析。其分析的主要内容,就是给“影响系统发展的各因素”在重要程度或者说影响程度方面排序。用灰色关联分析的说法,就是给出各个因素与系统总体的关联度排序。关联度越高,说明相应因素对系统发展的影响越大。至于关联度,就是上文提到的曲线形状的近似程度了。嗯,其实模模糊糊还是可以理解灰色关联分析的,就是感觉上有一点儿不靠谱hhh

下面直接举个例子来讲解应用灰色关联分析的方法。(原理已经讲过了呀)

下表为某一地区国内生产总值的统计数据(单位:百万元),问该地区从2000年到2005年之间哪一种产业对GDP总量影响最大。

诺,这就是一个典型的系统分析问题,找出对GDP发展影响最大的一个因素。那我们需要怎么做呢?想想看,灰色关联分析的原理是,比较序列曲线几何形状的相似性,那当然要先把序列曲线给画出来呀。嗯,第一步就是画出序列曲线啦。

这里需要注意,我们想要研究各因素对系统总体的关联度,就需要找出一个可以代表系统总体发展的指标,这里就是GDP。类似的,我们想要反映教育发达程度,就可以使用国民平均接受教育的年数来代表;我们想要反映社会治安面貌,就可以使用刑事案件的发生率来表达;想要反映国民健康水平,就可以使用医院挂号次数来表达。不管怎样,总是需要找到一个指标,对系统整体的发展进行刻画。

别的不说,只看曲线形状,我就觉得第一产业对GDP的影响最小了。GDP一直往高处走,而第一产业曲线的形状几乎就是平着的。而单看相似性,好像第二产业,也就是灰色曲线与GDP曲线最为相似。不过画出图像只是为了给出一个直观的感受和分析,曲线形状的近似程度,还是需要计算的。

第二步是确定分析序列。分析序列分为两类,一类称之为母序列,也就是反映系统整体行为特征或发展的数据序列,可以理解为回归分析中的因变量,这里就是GDP这一列。另一类称之为子序列,也就是影响系统发展的因素组成的数据序列,可以理解为回归分析中的自变量,这里就分别是第一产业,第二产业,第三产业的生产总值数据。

第三步是对数据进行预处理。预处理我们讲到许多了,例如正向化,标准化,归一化等等。这里预处理的目的就是去除量纲的影响,以及缩小数据范围方便计算。数据标准化往往就是这个作用。数据标准化有多种方法,例如 z − s c o r e z-score zscore标准化,就是原数据减去均值除以方差,随机变量往往使用这种方法;再比如 m i n − m a x min-max minmax标准化,就是 x − m i n m a x − m i n \frac {x-min}{max-min} maxminxmin。这两个方法之前都提到过。

那在这里,我们使用的标准化方法是每一个元素除以对应指标的均值,也就是 x i j 1 n ∑ i = 1 n x i j \frac {x_{ij}}{\frac 1n\sum_{i=1}^nx_{ij}} n1i=1nxijxij。嗯,我们展示一下处理之后的数据。用excel处理就可以了,比较方便。

第四步,计算处理后的子序列中各个元素与母序列相应元素的关联程度。记母序列为 x 0 = { x 0 ( 1 ) , x 0 ( 2 ) , . . . , x 0 ( n ) } x_0=\{x_0(1),x_0(2),...,x_0(n)\} x0={ x0(1),x0(2),...,x0(n)},子序列为 x 1 = { x 1 ( 1 ) , x 1 ( 2 ) , . . . , x 1 ( n )

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值