权重生成与评价模型

本章的主要学习目标:

学会构建评价体系的具体步骤,进一步理解从数据出发可以得到的信息:权重、主成分、因子等指标性数据属性,同时这也是一种对数据本身信息的提取,可以利用此来辅助建模。

核心:

构建指标体系、权重计算、评分准则。需要考虑下面几个因素:

  • 问题类型和数据类型:不同的评价类模型适用于不同的问题类型和数据类型。例如,层次分析法适用于定性与定量相结合的问题,模糊综合评价法适用于模糊性较强的问题,主成分分析法和因子分析法适用于高维度的数据降维问题。因此,需要根据问题的性质和数据类型选择合适的评价类型。
  • 数据量和分析需求:不同评价类模型对数据量和数据分析需求也不同。例如,熵权法需要大量的数据才能准确地计算出各个指标的权重,而因子分析法则需要较少的样本量来分析数据。因此,需要根据具体的数据量和数据分析需求选择合适的评价类模型。
  • 算法复杂度和可操作性:不同的评价类模型算法复杂度不同,所需的计算资源和操作难度也不同。例如,主成分分析法需要较为复杂的数学推导和计算,而熵权法则相对简单易懂。因此,需要根据具体的应用场景和计算资源选择合适的评价类模型。
  • 指标数量和权重分配:在选择评价类模型时,需要考虑指标数量和权重分配的问题。如果指标数量较多或者权重分配比较复杂,需要选择能够处理这些问题的评价类模型。例如,熵权法则可以通过熵值来判断各个指标的离散程度,从而确定各个指标的权重。
  • 主观与客观因素:不同的评价类模型在处理主观与客观因素时有所不同。例如,层次分析法和模糊综合评价法可以较好地处理主观因素,而熵权法和CRITIC法则更加注重客观因素的考虑。因此,在选择评价类模型时,需要根据具体的问题和实际情况选择能够处理主观与客观因素的评价类模型。
层次分析法

层次分析法流程:

  • 选择指标,构建层次分析模型。
  • 选择目标层到标准层之间和标准层到方案层之间构建比较矩阵。
  • 对每个比较矩阵计算CR 值检验是否通过CR检验,如果没有通过检验需要调整比较矩阵。、
  • 求出每个矩阵最大的特征值对应的归一化权重向量。
  • 根据不同的矩阵归一化权向量计算出不同的方案的得分进行比较。
  • 首先通过参考文献选择指标。
  • 构造层次模型图:目标层、准则层和方案层。
  • 构造比较矩阵,用i.j表示相对重要程度,所以对角线元素为1、同时![[1722084677984.png]]
    重要性的取值:![[1722084727847.png]]
  • 取不同的准则构成不同的比较矩阵
    然后对所有矩阵进行一致性检验。检验的方法为进行特征值分解:
    定义CI:![[1722086843390.png]]
    然后查表的方法确定RI:
    ![[1722086910691.png]]
    然后计算CI和RI的比值也就是CR,通常来说,当CR值超过0.1时,就可以认为这个矩阵是不合理的,需要被修改、被调整。
  • 得到一致性检验结果之后,还需要对最大特征值所对应的特征向量进行归一化处理得到权重向量,归一化的方法为将特征向量除以该向量所有元素之和:![[1722087095553.png]]即可得到权重以及每个样本在不同指标上的归一化得分。

熵权分析法
熵权分析法的原理

首先对于数据的指标,我们需要对非正向型数据、极大/极小型数据、区间型数据、中值型数据。对于不同的数据类型我们有不同的处理方法:

  • 非正向型数据:将原本的负向指标转化为正向指标。
  • 极大型指标:只需要min-max规约或者Z-score规约的方法。
  • 极小型指标:取相反数或者取倒数。
  • 区间型指标:可以利用Z-score规约的方法或者对数变换的方法

![[1722101459479.png]]

  • 注意:熵权法是一个数据驱动的过程,一定要保证有一定的数据量并且做了正向化。

TOPSIS分析法
TOPSIS分析法的原理
  • 在TOPSIS分析法中,我们通过计算每个方案离理想解和负理想解的距离来判断优劣。理想解是最佳方案,各项指标最优;负理想解是最差方案,各项指标最差。
    所以求解距离是关键,在此模型中我们一般是使用欧几里得距离。
    具体方法如下:
    ![[1722102049741.png]]
注意:在实际中考虑到不同的评价体系中重要性可能存在差异,所以可以使用客观的赋权方法:熵权法来改进TOPSIS分析法,所以可以改进的距离公式为:![[1722102180144.png]]

CRITIC方法

类似熵权法

CRITIC客观赋权法简单理解:

CRITIC权重法是一种基于数据波动性的客观赋权法。其思想在于两项指标,分别是波动性(对比强度)和 冲突性(相关性)指标。对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高; 冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。权重计算时,对比强度与冲突性指标相乘,并且进行归一化处理,即得到最终的权重。CRITIC权重法适用于数据稳定性可视作一种信息,并且分析的指标或因素之间有着一定的关联关系的数据。

CRITIC客观赋权法基本原理:

  • 首先对指标进行无量纲化和正向化处理,使用min-max规约方法即可
  • 计算指标变异性,本质即计算每个指标在所有样本中的标准差Sj:标准差越大则区分越明显,区分度也越高,信息强度越高。
  • 计算指标冲突性,定义为:![[1722103384424.png]]
  • 获取信息量,其中信息量的定义方法为指标变异性和冲突性的乘积:![[1722103443118.png]]
  • 归一化得到指标的权重,再用权重去乘归一化的数据矩阵得到评分,权重的计算如下:![[1722103535723.png]]

总体来说CRITIC更好,因为他综合考虑了信息熵和标准差以及相关系数,所以更加适合确定权重,但是需要注意如果数据中存在异常值或者离群点,可能会对计算结果产生较大影响,所以对数据的预处理极为重要。


模糊综合评价法
  • 是属于人工智能的一种评价方法,适合解决非确定性问题,根据模糊数学的隶属度理论把定性评价转化为定量评价。

模糊综合评价法的基本思想就是用属于程度代替属于或不属于,从而刻画“中介状态”。首先确定被评价对象的因素(指标)集合评价(等级)集;再分别确定各个因素的权重及它们的隶属度矢量,获得模糊评判矩阵;最后把模糊评判矩阵与因素的权矢量进行模糊运算并进行归一化,得到模糊综合评价结果。
基本隶属度的计算方法如下:![[1722104156495.png]]

此外还包括模糊推理等,之后我会把这个文档完全补充。


秩和比分析法

秩和比法,是利用秩和比(RSR, Rank-sum ratio)进行统计分析的一种方法。它不仅适用于四格表资料的综合评价,也适用于n行m列资料的综合评价,同时也适用于计量资料和分类资料的综合评价。

基本步骤:

  • 对效益型指标进行从小到大的排序,并计算每个指标的秩次。
  • 对成本型指标进行从大到小的排序,并计算每个指标的秩次。
  • 计算每个指标的秩和比(RSR),作为无量纲的统计量。
  • 基于秩和比进行统计分析,研究其分布情况。
  • 根据RSR值对评价对象进行直接排序或分档排序,以评估其综合表现。
特点
  • 秩和比综合评价法基本原理是在一个n行m列,通过秩的转换,获得无量纲统计量RSR;然后运用参数统计分析的概念与方法、研究RSR的分布;以RSR值对评价对象的优劣进行分档排序,从而对评价对象做出综合评价。

  • 优点:是非参数统计分析,对指标的选择无特殊要求,适于各种评价对象;由于计算用的数值是秩次,可以消除异常值的干扰,它融合了参数分析的方法,结果比单纯采用非参数法更为精确,既可以直接排序,又可以分档排序,使用范围广泛。

  • 缺点:是排序的主要依据是利用原始数据的秩次,最终算得的RSR值反映的是综合秩次的差距,而与原始数据的顺位间的差距程度大小无关,这样在指标转化为秩次是会失去一些原始数据的信息,如原始数据的大小差别等。

  • 当RSR值实际说不满足正态分布时,分档归类的结果与实际情况会有偏差,且只能回答分级程度是否有差别,不能进一步回答具体的差别情况。
    下面是原理:
    1.首先进行编秩:

整次秩和比法
将 n 个评价对象的 m 个评价指标排列成 n 行 m 列的原始数据表。编出每个指标各评价对象的秩,其中效益型指标从小到大编秩,成本型指标从大到小编秩,同一指标数据相同者编平均秩。得到秩矩阵,记为R=(Rij​)m×n。

非整次秩和比法:
此方法用类似于线性插值的方式对指标值进行编秩,以改进 RSR 法编秩方法的不足,所编秩次与原指标值之间存在定量的线性对应关系,从而克服了 RSR 法秩次化时易损失原指标值定量信息的缺点。![[1722104808158.png]]

2.计算秩和比并排序
![[1722104944379.png]]
3.确定RSR的分布
![[1722105047729.png]]
4.计算回归方程
![[1722105089024.png]]
5.计算校正RSR值,并进行分档排序:按照回归方程推算所对应的RSR估计值对评价对象进行分档排序,分档数由研究者根据实际情况决定。![[1722105128676.png]]


主成分分析法

一般的目的并不是评价,而是:

  • 数据的降维
  • 主成分的解释
    主要的步骤:
    ![[1722105299181.png]]

因子分析法

与主成分分析法的区别:

  • 原理不同:主成分分析是利用降维(线性变换)的思想,每个主成分都是原始变量的线性组合,使得主成分比原始变量具有某些更优越的性能,从而达到简化系统结构,抓住问题实质的目的。而因子分析更倾向于从数据出发,描述原始变量的相关关系,将原始变量进行分解。

  • 线性表示方向不同:主成分分析中是把主成分表示成各变量的线性组合,而因子分析是把变量表示成各公因子的线性组合。说白了,一个是组合,一个是分解。

  • 假设条件不同:因子分析需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。

  • 主成分分析的主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据帕累托图提取前几个主要的主成分。而因子分析的因子个数需要分析者指定,指定的因子数量不同而结果也不同。

  • 应用范围不同:在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法,提取出来的主成分无法清晰的解释其代表的含义。而因子分析就是一种完全的分析方法,可确切的得出公共因子。

基本步骤:

在进行因子分析之前,需要先进行巴雷特检验或KMO检验。巴雷特特球形检验(Barlett’s Test)是一种统计方法,用于检验多个变量之间是否存在相关性。它的基本思想是,如果多个变量之间彼此独立,那么它们的方差应该与它们的相关系数矩阵的行列式值成正比。如果实际观察到的行列式值与预期的行列式值相差很大,那么可以认为这些变量之间存在相关性。通过比较实际观察到的行列式值与预期的行列式值,我们可以决定是否拒绝零假设,即这些变量是独立的。简单来说,巴雷特特球形检验的作用就是帮助我们判断多个变量之间是否存在相关性,从而决定是否适合进行因子分析。如果得到的统计概率小于0.05,那么它是适合做因子分析的。

KMO检验用于评估一组数据是否适合进行因子分析。它的基本作用是检测数据是否符合因子分析的基本假设,即变量之间应该呈现出一定程度的相关性。KMO检验的基本思想是通过比较变量之间的简单相关系数和偏相关系数来进行评估。简单相关系数描述了两个变量之间的直接关系,而偏相关系数则描述了在控制其他变量影响后,两个变量之间的净关系。KMO检验通过计算这些相关系数的平方和来比较这两种关系,以确定数据是否适合进行因子分析。KMO统计量的取值范围在0-1之间。当KMO值越接近1时,表示变量间的相关性越强,原有变量越适合作因子分析;当KMO值越接近0时,表示变量间的相关性越弱,原有变量越不适合作因子分析。在实际分析中,KMO统计量在0.7以上时效果比较好;当KMO统计量在0.5以下时,则不适合应用因子分析法,可能需要重新设计变量结构或者采用其他统计分析方法。

如果能够通过这两个检验中的一个,就可以开始做因子分析了。它的基本流程如下:

  • 首先,我们要选出一组变量来进行因子分析。选择的方法有两种:定性和定量。如果原始变量之间的相关性不好,那它们就很难被分解成几个公共因子。所以,原始变量之间应该有较强的相关性。

  • 接着,我们要计算这些选定的原始变量的相关系数矩阵。这个矩阵能告诉我们各个变量之间的关系是什么样的。这一步特别重要,因为如果变量之间没什么关系,那把它们分解成几个因子就没什么意义了。这个相关系数矩阵也是我们进行因子分析的基础。

  • 然后,我们要从这些原始变量中提取出公共因子。具体要提取几个,需要我们来做决定。这个决定可以基于我们的先验知识或者实验假设。不过,通常我们会看提取的因子的累计方差贡献率是多少。一般来说,累计的方差贡献率达到70%或以上,就算是满足了要求。分解的形式如下所示:

    ???

  • 之后,我们要对提取出来的公共因子进行旋转。这样做的目的是为了让因子的意义更明确,更容易理解。

  • 最后,我们要计算出因子的得分。这些得分可以在后续的研究中使用,比如在因子回归模型中。这样,我们就能更好地理解这些变量的关系,并找出影响结果的关键因素。

因子载荷矩阵是因子分析中的核心概念之一,它描述了变量与因子之间的关系。因子载荷是第i个变量与第j个公共因子的相关系数,反映了第i个变量和第j个公共因子之间的重要性。绝对值越大,表示相关性的密切程度越高。因子载荷矩阵中各列元素的平方和成为对所有的变量的方差贡献和,衡量了各个公共因子的相对重要性。因子载荷矩阵是可逆的,因此可以用于将原始变量表示为公共因子和特殊因子的线性组合。这使得我们可以利用公共因子解释原始数据的结构和模式,并对其进行解释和分析。因子载荷矩阵在因子分析中具有重要的作用,它不仅用于确定公共因子和特殊因子的数量,还可以用于估计公共因子和特殊因子的系数。在实际中,可以使用主成分分析法等方法估计因子载荷矩阵。

为什么需要进行因子旋转?假设我们有一个市场调研数据集,其中包括了多个产品特性和消费者对产品的评价。通过因子分析,我们希望找出影响消费者评价的公共因子。初始的因子载荷矩阵可能显示出一些不太直观的结果,例如某些产品特性与公共因子之间的关系不太明显。这时,通过因子旋转,我们可以对原始因子进行转换,使得因子载荷矩阵中的因子载荷的绝对值更加接近于1或0。这样,我们可以更清楚地看出哪些产品特性与公共因子有强烈的关联,哪些特性的影响较小。因子旋转的本质就是做一个正交变换,让因子载荷阵的结构得到简化。常见的因子旋转方法包括方差最大法等。

最终得到的因子得分往往比主成分分析更加具有可解释性。它在人文社会科学的问题中有着非常重要的应用。前面学习的一系列方法例如层次分析法、熵权法等把评价的重点放在了指标权重上,TOPSIS分析法等把重点放在了得分折算上。但因子分析走出了第三条路径:通过构造因子,将多个变量进行抽象构造出指标体系(可以理解为,数据中给出的的二级指标,而通过因子分析可以给出一级指标以及指标对应关系)。良好的可解释性就意味着它可以深度地和一些人文社会科学理论融合起来,并具有广阔的后续应用空间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值