熵权法有啥用?
可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
下面的实战中,最终计算的熵权结果为,C语言课程成绩权重占0.99,剩下的两门课成绩权重几乎为0,很好理解,因为体育和数据库大家的分都普遍偏高,体现不出来设么东西。
什么是熵
熵权如何计算
实战示例
一、计算每一列的总和
二、每一个数据更新为除以总和后的值,即Pij
三、计算ln(Pij)
四、得到熵值Hi
如果存在0的话,可以通过平移法,在有0的那类指标里每个指标都加上一个很小的数,如0.001,再进行计算。或者直接赋值为0
使用公式计算熵值Hi,其中n表示一共几个学生
五、得到熵权Wi
总结与反思
经过这个实例,我们可以发现,当一组数据波动比较大时,它的权重是很大的,但我们不禁反思熵权法存在的问题,难道数据库原理就没有参考价值?
我们最后得到的Wi是客观值,但是我们可以认为主观的进行调整,主观客观相结合也是很棒的哦!
优点
- 能深刻反映出指标的区分能力,进而确定权重
- 是一种客观赋权法,相对主管赋权具有较高的可信度和精确度
- 算法简单
缺点
- 不够智能,没有考虑指标与指标之间的影响,如:相关性、层级关系等
- 若无业务经验指导,权重可能失真
- 对样本的依赖性较大,随着建模样本不断变化,权重会发生一定波动
注意的地方
当一个表的几组数据单位不同时,我们应该对数据进行极差标准化,用标准化后的数据来进行熵权法分析,如图,这个表最下面的p开始,这一部分就是在计算p哦,就是咱们上面的第二步
极差法标准化公式:
通过极差法标准化,我们就可以把原来的数据标准化到0-1之间内了,哈哈哈爽哦!