根据各个指标获得综合指标时,由于各个指标对综合指标的贡献度不同,相应权重也应不同,对综合指标贡献大的指标更重要,应该分配更大的权重。如何确定各个指标的权重,这里介绍两种方法:熵值法和pca确定权重。也可用于特征工程中确定特征权重。
一、熵值法
1、熵的概念
信息论中,熵是对随机变量不确定性的度量。熵值越小,无序程度越小,不确定性越小,信息量越大;熵值越大,无序程度越大,不确定性越大,信息量越小。可用熵值计算特征的离散程度,离散程度大的特征对综合值影响更大。
熵值大,信息量小,权重应该小;熵值小,信息量大,权重应该大。
熵的计算公式
2、熵值法确定权重
指标1
指标2
……
指标m
...
...
...
...
确定指标1到指标m的权重
指标值不同取值的出现次数相差大,熵小,信息量大,权重应大;指标值不同取值的出现次数相差小,熵大,信息量小,权重应小。
当m个指标值完全相同时,熵最大,可移除该指标。
熵值法确定权重的步骤:
1、归一化
对指标值进行归一化,归一化时,应考虑指标值的影响
当指标值越大越好时,可使用公式
x=(x-xmin)/(xmax-xmin)
当指标值越小越好时,可使用公式
x=(xmax-x)/(xmax-xmin)
2、定义熵
m个指标,n个被评价对象
第i个指标
3、定义熵权
二、pca确定权重
pca是一种无监督的降维方法,pca通过线性变换将原来可能相关的n个向量变换成线性无关的k维向量。用pca确定权重系数需要知道三个条件:
指标在各主成分线性组合中的系数
主成分的方差贡献率
指标权重的归一化
ex:n个主成分,m个指标
w表示各主成分的系数,wij表示第一个主成分第j个指标的系数,fi表示第一个主成分的方差贡献率
则第q个指标的权重为
归一化