熵值法
原理
熵值法是一种基于信息熵的客观赋权方法。啥是信息熵呢?简单来说,它是衡量信息不确定性的一个指标。在数据综合评价里,如果某个指标的信息熵越小,那就意味着这个指标在不同样本之间的差异越大,提供的信息量也就越多,在综合评价里的重要性就更高,权重自然也得给它加大;反之,信息熵大,权重就小。
在数据综合评价领域,信息熵的概念有着重要应用。如果某个指标的信息熵越小,意味着该指标在不同样本之间的差异越大。例如,在评估学生成绩时,“考试成绩”这个指标可能在不同学生之间差异较大,信息熵就小,说明这个指标能提供较多区分学生水平的信息,在综合评价中就更为重要,赋予的权重也就应该更大;反之,如果某个指标在不同样本间差异不大,信息熵大,那么它在综合评价中的权重就小。
实现路径
-
数据标准化:
原始数据通常具有不同的量纲和数量级,这会对评价结果产生干扰。为了消除这些影响,需要对数据进行标准化处理。常用的方法是极差标准化。- 对于正向指标(指标值越大越好的指标),计算公式为: x i j ∗ = x i j − min ( x j ) max ( x j ) − min ( x j ) x_{ij}^* = \frac{x_{ij} - \min(x_j)}{\max(x_j) - \min(x_j)} xij∗=max(xj)−min(xj)xij−min(xj)。其中, x i j x_{ij} xij表示第 i i i个样本的第 j j j个指标值, x i j ∗ x_{ij}^* xij∗表示标准化后的数值。例如,在评估学生成绩时,“考试成绩”是正向指标,通过这个公式可以将不同学生的成绩标准化到 [ 0 , 1 ] [0, 1] [0,1]区间。
- 对于负向指标(指标值越小越好的指标),计算公式为: x i j ∗ = max ( x j ) − x i j max ( x j ) − min ( x j ) x_{ij}^* = \frac{\max(x_j) - x_{ij}}{\max(x_j) - \min(x_j)} xij∗=max(xj)−min(xj)max(xj)−xij。
-
计算比重:
在数据标准化后,需要计算每个样本在各指标下的比重。计算公式为: p i j = x i j ∗ ∑ i = 1 n x i j ∗ p_{ij} = \frac{x_{ij}^*}{\sum_{i = 1}^{n}x_{ij}^*} pij=∑i=1nxij∗xij∗。这里, n n n是样本数量, p i j p_{ij} pij表示第 j j j项指标下第 i i i个样本的比重。例如,假设有三个学生,在“考试成绩”这一指标下,经过标准化后,他们的成绩分别为 0.5 0.5 0.5、 0.6 0.6 0.6、 0.7 0.7 0.7,那么第一个学生在“考试成绩”指标下的比重就是 0.5 / ( 0.5 + 0.6 + 0.7 ) 0.5 / (0.5 + 0.6 + 0.7) 0.5/(0.5+0.6+0.7)。 -
计算熵值:
通过比重来计算每个指标的熵值,公式为: e j = − k ∑