根据各个指标获得综合指标时,由于各个指标对综合指标的贡献度不同,相应权重也应不同,对综合指标贡献大的指标更重要,应该分配更大的权重。如何确定各个指标的权重,这里介绍两种方法:熵值法和pca确定权重。也可用于特征工程中确定特征权重。
一、熵值法
1、熵的概念
信息论中,熵是对随机变量不确定性的度量。熵值越小,无序程度越小,不确定性越小,信息量越大;熵值越大,无序程度越大,不确定性越大,信息量越小。可用熵值计算特征的离散程度,离散程度大的特征对综合值影响更大。
熵值大,信息量小,权重应该小;熵值小,信息量大,权重应该大。
熵的计算公式
2、熵值法确定权重
指标1 | 指标2 | …… | 指标m |
... | ... | ... | ... |
确定指标1到指标m的权重
指标值不同取值的出现次数相差大,熵小,信息量大,权重应大;指标值不同取值的出现次数相差小,熵大,信息量小,