层次分析法最大的缺点:主观性强
熵权法是一种客观赋权方法
依据的原理:指标的变异程度(方差/标准差)越小,所反映的信息量也越小,对应的权值也应该越低。
如何度量信息量?
假设有一只小猫和小狗,你会觉得小猫喜欢撒娇小狗对你爱答不理奇怪还是小猫高冷小狗热情奇怪?那必然是前者,对于我们来说前者信息量大,因为在我们印象中前者的发生可能性低。因此
越可能发生的事情信息量越少、越不可能发生的事情信息量越多
因此 我们用概率来衡量事情的信息量
如果把信息量用字母I表示,概率用p表示
假设x表示事件X可能发生的某种情况,p(x)表示这种情况发生的概率
我们可以定义:I(x)=-ln(p(x))
因为0<=p(x)<=1,所以I(x)>=0
信息熵的定义
H(X)=[p(
)I(
)]=-
[p(
)ln(p(
))]
信息熵的本质就是对信息量的期望值
当p()=p(
)=……=p(
)=1/n时,H(x)取最大值,此时H(x)=lnn
熵越大信息量是越大还是越小
随机变量的信息熵越大,则它的值(内容)能给你补充的信息量越大,而知道这个值前你已有的信息量越小
对于熵权法而言,因为我们关注的是已有的信息,所以答案是越小
熵权法的计算步骤
(1)判断输入的矩阵中是否存在负数,如果有则重新标准化到非负区间
(2)计算第j项指标下第i个样本所占的比重,并将其看作相对熵计算中用到的概率
(3)计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权
容易搞错的点:信息熵是信息量的期望值,但是信息熵大不代表信息多
当每种情况发生的概率相同时,信息熵取最大值,所以反而得到的信息越少
熵权法背后的原理
熵权法是一种客观赋权方法,指标的编译程度越小,所反映的信息量也越小,其对应的权值也应该越低。(客观=数据本身就可以告诉我们权重)
我们可以用指标的标准差来衡量样本的变异程度,指标的标准差越大,信息熵越小
根据蒙特卡洛的结果,标准差跟信息熵呈负相关关系
熵权法的片面性
在生活中,很多时候我们并不能对样本进行充分取样,例如在研究学生品德与行为关系中,毫无疑问,违法犯罪是严重代表学生品德低的体现,但是生活中很少能遇到此类情况,因此在很大一部分程度上,熵权法也具有片面性。但是在比赛中,熵权法的使用有助于减少数据的主观性,比单纯的自己编数据来的准确的多。在发表的论文中就尽量不要使用熵权法了。
最后通过熵权法得到权重向量就可以了