在信息论中,熵是对不确定性或随机性的一种度量,不确定性越大,熵值就越大,不确定性越小,熵值就越小。不确定性越大,表明随机性越大,数据越离散,则包含的信息就越大,在确定权重的时候往往就越小。
熵值法确定权重只是考虑了数据本身的离散程度,并没有考虑数据在实际应用中的信息。
假设数据中有n个样本m个指标,其中
熵值法确定权重步骤:
1、数据标准化
通常应用最大最小标准化方法对数据进行标准化的操作,将各指标由绝对值变为相对值且消除量纲对结果的影响。
注:有时指标的正负向采用不同的最大最小的标准化方法。
2、确定各指标的信息熵
计算各个指标信息熵:
其中
3、确定各指标的权重
通过步骤2计算出各个指标的熵值:
总结:从整理来看熵值法确定权重只是考虑数据各个指标的离散程度,即数据取值越多其权重就越大,并没有结合具体的实际问题,因此在应用熵值法确定权重时需要结合具体的问题才能使用。
相应文章会同步到公众号:洞察数据挖掘价值。