获取更多关于算法、人工智能、复杂性科学的内容,欢迎关注我的公众号《复杂与美》
##一.熵的基本概念
熵最初是热力学中的一个概念,后来延伸到信息领域。熵是对系统无序度的度量,系统越无序,熵越大。熵的统计学定义是:
某个宏观状态的微观状态数,取对数 l n W lnW lnW
举个例子,抛10次硬币,正面朝上的次数是3是宏观状态,对应的微观状态数,也就是使得正面朝上的排列组合数为3。可以看出熵越大,该熵对应的状态出现的概率也越大,弄清楚定义之后也就不难理解为什么熵越大系统会越稳定了。
##二.熵值法在多指标评价系统中的应用
对于多指标系统评价的赋权问题除了采用层次分析法(AHP)等主观分析方法外,还可以通过熵值法来确定权重。
**熵值法的核心思想是用信息的无序度来衡量信息的效用值。**信息的无序度越低(越不稳定),该信息的效用值就越大。换句话说,越稳定的信息越无用。
在多指标系统中应用熵值法是基于以下假定:
那些很稳定基本不怎么变化的指标对最终评价造成的影响也很小。信息的离散程度越大越重要。
国内外关于熵值法的资料不是很多,我认为主要原因还是这个假定不是很有说服力,因为实际中存在大量比较稳定但也同样重要的信息,这种信息即使是很小一点的变动也会引起结果的很大变化,在非线性动力系统中有大量这样的例子。
我认为,信息的离散程度只是信息的某一方面的反映,信息的重要性也是信息某方面的反映,单单从信息的离散程度或是重要性都无法还原信息本身,而通过信息的某个侧面去推测信息的另一个侧面这种方法确实不太靠谱。
综上,这种方法虽然是一种客观的评分方法,但由于理论上的硬伤,还是不能在多指标评价系统中出于优势地位。
不过由于评价这种东西本来就很主观,也没有客观的标准去评价某个方法的有效性,所以对多指标评价的方法也很难分出孰优孰劣。如果是有专业知识作为指导还是最好选择主观赋权的方法。
##三.熵值法算法步骤
-
选取n个样本,m个指标,则
x i j x_{ij} xij
为第i个样本的第j个指标的数值(i=1, 2…, n; j=1,2,…, m);
-
指标的归一化处理:异质指标同质化
由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要对它们进行标准化处理,即把指标的绝对值转化为相对值,并令
x i j = ∣ x i j ∣ x_{ij}=|x_{ij}| xij=∣xij∣
从而解决各项不同质指标值的同质化问题。而且,由于正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于高低指标我们用不同的算法进行数据标准化处理。其具体方法如下:
对于正向指标:
z i j = x i j − m i n ( x j ) m a x ( x j ) − m i n ( x j ) {z}_{ij}=\frac{x_{ij}-min (x_j) }{max(x_j)-min(x_j)} zij=max(xj)−min(xj)