熵权法
熵权法是一种客观赋权方法。(客观 = 数据本身就可以告诉我们权重)
依据的原理:指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。
目录
一、方法介绍
如何度量信息量的大小
熵权法就是根据一项指标的变化程度来分配权重的,举个例子:小张和小王是两个高中生,小张学习好回回期末考满分,小王学习不好考试常常不及格。在一次考试中,小张还是考了满分,而小王也考了满分。那就很不一样了,小王这里包含的信息就非常大,所对应的权重也就高一些。
上面的小例子告诉我们:越有可能发生的事情,信息量越少。越不可能发生的事情,信息量就越多。其中我们认为 概率 就是衡量事情发生的可能性大小的指标。
那么把信息量用字母 I表示,概率用 p表示,那么我们可以将它们建立一个函数关系:
最终我们可以定义:
信息熵的定义
假设 x 表示事件 X 可能发生的某种情况,表示这种情况发生的概率我们可以定义:,因为0 ≤ p(x) ≤ 1,所以I ( x ) ≥ 0 。 如果事件 X 可能发生的情况分别为: ,那么我们可以定义事件 X 的信息熵为:
那么从上面的公式可以看出,信息熵的本质就是对信息量的期望值。
可以证明:时, 取最大值,此时。 (n表示事件发生情况的总数)
二、计算步骤
熵权法的计算步骤大致分为以下三步:
- 判断输入的矩阵中是否存在负数,如果有则要重新标准化到非负区间(后面计算概率时需要保证每一个元素为非负数)。
- 计算第 j 项指标下第 i 个样本所占的比重,并将其看作相对熵计算中用到的概率。
- 计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权。
1.判断输入的矩阵中是否存在负数,如果有则要重新标准化到非负区间(后面计算概率时需要保证每一个元素为非负数)。
2.计算第 j 项指标下第 i 个样本所占的比重,并将其看作相对熵计算中用到的概率。
3.计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权。
三、代码实现
function [W] = Entropy_Method(Z)
% 计算有n个样本,m个指标的样本所对应的的熵权
% 输入
% Z : n*m的矩阵(要经过正向化和标准化处理,且元素中不存在负数)
% 输出
% W:熵权,1*m的行向量
%% 计算熵权
[n,m] = size(Z);
D = zeros(1,m); % 初始化保存信息效用值的行向量
for i = 1:m
x = Z(:,i); % 取出第i列的指标
p = x / sum(x);
% 注意,p有可能为0,此时计算ln(p)*p时,Matlab会返回NaN,所以这里我们自己定义一个函数
e = -sum(p .* mylog(p)) / log(n); % 计算信息熵
D(i) = 1- e; % 计算信息效用值
end
W = D ./ sum(D); % 将信息效用值归一化,得到权重
end
p有可能为0,此时计算ln(p)*p时,Matlab会返回NaN,所以这里我们自己定义一个函数
% 重新定义一个mylog函数,当输入的p中元素为0时,返回0
function [lnp] = mylog(p)
n = length(p); % 向量的长度
lnp = zeros(n,1); % 初始化最后的结果
for i = 1:n % 开始循环
if p(i) == 0 % 如果第i个元素为0
lnp(i) = 0; % 那么返回的第i个结果也为0
else
lnp(i) = log(p(i));
end
end
end