本文是datewhale的数学建模导论课程的学习笔记之一。
这一部分主要介绍层次模型,这里只记录原理,相关案例请查阅官方github开源的项目文档。
https://datawhalechina.github.io/intro-mathmodel/
http:// https://github.com/datawhalechina/intro-mathmodel
1.层次分析法
首先,层次分析法的流程分五步走:
1.选择指标,构建层次模型。
2.对目标层到准则层之间和准则层到方案层之间构建比较矩阵。
3.对每个比较矩阵计算CR值检验是否通过CR检验,如果没有通过检验需要调整比较矩阵。
4.求出每个矩阵最大的特征值对应的归一化权重向量。
5.根据不同矩阵的归一化权向量计算出不同方案的得分进行比较。
层次分析法将模型大致分为目标层、准则层和方案层。目标层是评价目标,准则层是评
价指标体系,方案层是多个对比方案。
图1 使用层次分析法选择空调
两个相邻的层次之间是需要构建成对比较矩阵的。比方说在上图,在目标层和准则层之间就需要构建第一层比较矩阵,这个矩阵的大小是行列均为4。矩阵的每一项表示因素i和因素j的相对重要程度。由于对角线上元素都是自己和自己做比较,所以对角线上元素为1。另外,还有一条重要性质:
关于这个矩阵的每一项取值多少,若因素i比因素j重要,为了描述重要程度,用1~9中间的整数描述,如表1所示。
表1 重要性程度取值
表1中描述的重要性是因素i比因素j重要的情况下描述的。如果是因素j比因素i重要,由式(5.2)得到的“相对不重要程度”那就用1~9的倒数描述即可。
除了准则层外,方案层也需要构建成对比较矩阵。但不同的是,假如有m个准则n个样本,需要构建的矩阵数量为m,矩阵大小为(n,n)。每个成对比较矩阵是需要我们自己手动确定的。在人工商定了这些成对比较矩阵后,接下来的操作是对每个成对比较矩阵进行一致性检验。在前面我们已经知道如何对矩阵进行特征值分解,那么对于成对比较矩阵可以很容易地计算出它最大的特征值及其对应的特征向量。那么,定义CI值:
而除了CI,还有一个RI值(随机一致性指标),在不同的n的取值下RI值也不同。这个值是通过大量随机实验得到的统计规律,数值可以查表获得。
得到RI和CI后,计算CI和RI的比值也就是CR。通常来说,当CR值超过0.1时,就可以认为这个矩阵是不合理的,需要被修改、被调整,即没有通过一致性检验。
得到一致性检验结果后,还需要对最大特征值对应的特征向量进行归一化得到权重向量。归一化的方法为将特征向量除以该向量所有元素之和:
2.熵权分析法
熵权法是一种客观赋权方法,基于信息论的理论基础,根据各指标的数据的分散程度,利用信息熵计算并修正得到各指标的熵权,较为客观。相对而言这种数据驱动的方法就回避了上面主观性因素造成的重复修正的影响。
熵权法的主要计算步骤如下:
(1)构建m个事物n个评价指标的判断矩阵 。
(2)将判断矩阵进行归一化处理,得到新的归一化判断矩阵B。
(3)熵权法可利用信息熵计算出各指标的权重,从而为多指标评价提供依据。根据信息论中对熵的定义,熵值的计算如下。
其中为离散属性中每个类取值的占比。通过式(5.8)的熵值,可以评价不同指标的离散程度,一般情况下,信息熵越小,离散程度越大,因子对综合评价的权重就越大。
(4)计算权重系数,式子(5.9)中代表对于某一个属性,第类占样本的比例。为属性的取值数量。
所以,权重系数定义为
注意:熵权法是一个数据驱动过程,一定要保证有一定数据量并且做了正向化。
3 TOPSIS分析法
TOPSIS评价法是有限方案多目标决策分析中常用的一种科学方法,其基本思想为,对原始决策方案进行归一化,然后找出最优方案和最劣方案,对每一个决策计算其到最优方案和最劣方案的欧几里得距离,然后再计算相似度。若方案与最优方案相似度越高则越优先。
3.1 一般的TOPSIS分析法
在TOPSIS分析法中,我们通过计算每个方案离理想解和负理想解的距离来判断优劣。理想解是最佳方案,各项指标最优;负理想解是最差方案,各项指标最差。简化多个指标问题为距离问题,如图所示。
对于距离,有多种方式可以衡量它。包括最常用的欧几里得距离、曼哈顿距离、余弦距离等多种计算方式,它们的计算方法如下:
有了上面的计算方法TOPSIS法的基本流程如下:
(1)对原始数据进行指标正向化和归一化操作得到矩阵
(2)定正理想解Z+和负理想解Z-
(4)计算各评价对象的相似度Wi:
可以看到,相似度是与负理想解和两个理想解距离之和的比值,若占比越大,则说明离负理想解越远,越优先选择。
(5)根据Wi大小排序可得到结果。
TOPSIS分析的流程图如下:
3.2 改进的TOPSIS分析法
在经典TOPSIS方法中,计算欧几里得距离时,不同指标的差的平方会被直接相加。然而,考虑到不同指
标在评价体系中的重要性可能存在差异,因此在计算距离时应对各个指标赋予相应的权重。权重的确定可以通过熵权法或层次分析法来实现。通常在解决TOPSIS问题时,我们会处理大量的数据,因此,权重可以通过数据驱动的熵权法来获得。如果给每个指标赋权重,权重向量为w的话,距离的计算方式应该被改为:
这样,可以在距离计算中考虑权重影响,更重要的权重会被赋予更多的权重,在距离计算中起到更大的作用。
4 CRITIC方法
CRITIC权重法是一种基于数据波动性的客观赋权法。其思想在于两项指标,分别是波动性(对比强度)和 冲突性(相关性)指标。对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高; 冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。权重计算时,对比强度与冲突性指标相乘,并且进行归一化处理,即得到最终的权重。CRITIC权重法适用于数据稳定性可视作一种信息,并且分析的指标或因素之间有着一定的关联关系的数据。
注意:CRITIC方法和熵权法一样都属于数据驱动的方法类型,需要数据量支持。
假设有一个n个对象m项指标的数表,CRITIC法按照如下的操作步骤进行。
(1)对指标进行无量纲化和正向化处理。上节课提到,min-max规约能够进行很好的无量纲化处理,如果这个指标是越大越好,那么规约方法形如:
而如果指标是越小越好,那么规约方法形如:
对于区间型和中值型指标,则按照在TOPSIS分析中讲到的指标正向化处理。
(2)计算指标变异性。本质上就是计算每个指标在所有样本中的标准差。标准差表示指标在样本中的差异波动情况,若标准差越大,则它的区分度越明显,信息强度也越高,越应该给它分配更多权重。
(3)计算指标冲突性,定义为:
其中表示指标和指标之间的相关系数。相关系数的概念我们在中学阶段应该学习过,其实中学学到的相关系数严格意义上应该叫皮尔逊相关系数。其定义为:
(4)获取信息量,其中信息量的定义方法为指标变异性和冲突性的乘积:
(5)归一化得到指标权重,再用权重去乘归一化的数据矩阵可以得到每个对象的评分,并根据评分进行对象的评价、排序。归一化的过程形如: