1.数据处理
在计算权值之前,需要对原始的数据进行一定的处理。
1.1 数据清洗
数据的清洗是解决问题的第一步,包括缺失值处理和异常值处理两方面。
对于缺失值,通常有三种可选的操作——删除、插补、不处理。其中插补的方式有很多,例如均值插补、固定值插补、最邻近插补、回归、插值(最常用)等等。
对于异常值,处理方法与缺失值没有太大区别。相比缺失值,异常值处理最主要的部分在于如何判断数据是否异常。异常值判断可以通过箱型图、小波分析等方式来进行。
1.2 数据变换
在进行数据变换之前,可以进行一些特征提取的工作,比如用PCA(主成分分析法)进行数据降维,得到独立的指标,这能够提高最终计算出的权值准确性。
根据不同的需要,数据变换的具体方式也不同,常见的有归一化、标准化等。
归一化:能够实现指标的一致化以及无量纲化。归一化操作针对不同类型的指标略有差异,但基本的原则是确定的,即把所有的指标转化为效益型指标。经过归一化后的数据相对均匀地分布在[0,1]区间内,相当于把数据压缩到0~1范围内。容易发现这个过程对于异常值是极度敏感的。
标准化:标准化后的数据,其均值为0,标准差为1。
个人感觉:归一化几乎是必做的,标准化、中心化等视具体情况而定。
图片来自:数据无量纲化处理(归一化VS标准化)
2. 三种赋权方法的比较
2.1 变异系数法
变异系数法,也叫标准离差法,基本思想是计算每个指标下数据的方差Si,用Si除以各个Si的总和作为第i个指标的权重值,方差越大者权重也越大。
这种方法的优点是比较简单,也容易实现,能够有效区分各个指标。
但它的缺点也是显著的——变异系数法的前提是各个指标重要性相当。指标方差越大只能说明该指标对不同方案的区分度很高,事实上并不能等同于指标的重要度。因此使用变异系数法时,对指标的选取有一定要求。
2.2 熵权法
某种程度上与变异系数法很相似,但熵权法不是使用方差,而是用信息熵。
可参考这篇博客:熵权法_wenxin_titanium的博客-CSDN博客_熵权法
2.3 CRITIC
CRITIC的效果优于前两种方法,综合考虑了指标的对比强度与冲突性。但需要注意使用CRITIC则不宜进行标准化。
可参考这篇博客:客观赋权法——CRITIC权重法_卖山楂啦prss的博客-CSDN博客_critic法