引言
在构建指标评价体系时候,如何确定各指标权重是经常会遇到的问题,这方面的理论已经十分成熟,通常我们可以分为三大类:主观赋权法、客观赋权法以及组合赋权法。而我们这里要讲的熵权法是客观赋权法中的经常用到的方法,它直接通过样本数据计算得出,不受人为主观因素的影响,比较符合数据分析的路子。
下面直接进入正题,介绍熵权法。
熵权法
熵权法,首先得从熵说起,熵的概念最早起源于物理学,用于度量热力学系统中的无序程度。后来在在信息论中发展起来,用来度量系统的不确定性。 系统可能处于多种不同状态,假定每种状态出现的概率为pi,那么该系统的熵的定义为:
我们来看一种特殊情形,当系统仅有两种状态的情形时,熵的变化如下:
## curve plotcurve(-x*log2(x) - (1-x)*log2(1-x),xlab='p',ylab='Entropy',lwd=2)
可以看到,当两种状态的概率相等时,熵的取值最大,反之,当其中一种状态的概率接近于1时,熵最小。正是由于熵的这种性质,它在很多方面都有应用,比如在决策树中它用来度量不纯度,生成新的分支。而在这里,用它来确定指标的权重。
一般步骤
熵权法确定指标权重的一般步骤:1 获取样本数据,该数据包含p个指标,m个样本,数据矩阵