熵值法

最新推荐文章于 2024-05-29 00:15:00 发布

fsfsfsdfsdfdr

最新推荐文章于 2024-05-29 00:15:00 发布

阅读量7.5w

点赞数 38

分类专栏：机器学习文章标签：熵值法

本文链接：https://blog.csdn.net/fsfsfsdfsdfdr/article/details/83443562

版权

机器学习专栏收录该内容

20 篇文章 8 订阅

订阅专栏

一、基本原理

在信息论中，熵是对不确定性的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。
根据熵的特性，可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响（权重）越大，其熵值越小。

在信息论中，熵是对不确定性信息的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性就越大，熵也越大。

熵大	越不确定	信息量小	影响小	权重小
熵小	越确定	信息量大	影响大	权重大

　　根据指标的特性，我们可以用熵值来判断某个指标的离散程度：指标熵值越小，离散程度越大，该指标对综合评价的影响（即权重）也越大。

　　业务情景：设有m个样本，n个评价指标，形成原始数据矩阵

　　对某项指标，指标值的差距越大，则该指标在综合评价中所起的作用越大；如果某项指标的指标值全部相等，则该指标在综合评价中不起作用。

二、熵值法步骤

1. 选取n个国家，m个指标，则为第i个国家的第j个指标的数值（i=1, 2…, n; j=1,2,…, m）；

2. 指标的归一化处理：异质指标同质化

由于各项指标的计量单位并不统一，因此在用它们计算综合指标前，先要对它们进行标准化处理，即把指标的绝对值转化为相对值，并令，从而解决各项不同质指标值的同质化问题。而且，由于正向指标和负向指标数值代表的含义不同（正向指标数值越高越好，负向指标数值越低越好），因此，对于高低指标我们用不同的算法进行数据标准化处理。其具体方法如下:
正向指标:

负向指标:

则为第i个国家的第j个指标的数值（i=1, 2…, n; j=1, 2,…, m）。为了方便起见，归一化后的数据仍记为;

3. 计算第j项指标下第i个国家占该指标的比重：

4. 计算第j项指标的熵值：

其中. 满足;

5. 计算信息熵冗余度：

6. 计算各项指标的权值：

7. 计算各国家的综合得分：

python实现

import numpy as np
import xlrd
 
#读数据并求熵
path=u'K:\\选指标的.xlsx'
hn,nc=1,1
#hn为表头行数,nc为表头列数
sheetname=u'Sheet3'
def readexcel(hn,nc):
    data = xlrd.open_workbook(path)
    table = data.sheet_by_name(sheetname)
    nrows = table.nrows
    data=[]
    for i in range(hn,nrows):
        data.append(table.row_values(i)[nc:])
    return np.array(data)
def entropy(data0):
    #返回每个样本的指数
    #样本数，指标个数
    n,m=np.shape(data0)
    #一行一个样本，一列一个指标
    #下面是归一化
    maxium=np.max(data0,axis=0)
    minium=np.min(data0,axis=0)
    data= (data0-minium)*1.0/(maxium-minium)
    ##计算第j项指标，第i个样本占该指标的比重
    sumzb=np.sum(data,axis=0)
    data=data/sumzb
    #对ln0处理
    a=data*1.0
    a[np.where(data==0)]=0.0001
#    #计算每个指标的熵
    e=(-1.0/np.log(n))*np.sum(data*np.log(a),axis=0)
#    #计算权重
    w=(1-e)/np.sum(1-e)
    recodes=np.sum(data0*w,axis=1)
    return recodes
data=readexcel(hn,nc)
grades=entropy(data)

计算结果：

In[32]:grades
Out[32]: 
array([95.7069621 , 93.14062354, 93.17273781, 92.77037549, 95.84064938,
       98.01005572, 90.20508545, 95.17203466, 95.96929203, 97.80841298,
       97.021269  ])

上面的程序计算得分时用了标准化前的值×权重，这对于原始评分量纲相同时没有什么问题。

按照论文上的公式，计算得分时应该用标准化后的值×权重，这对于原始数据量纲不同时应该这样做，因此按照论文的公式计算的程序如下：

import numpy as np
import xlrd
 
#读数据并求熵
path=u'K:\\选指标的.xlsx'
hn,nc=1,1
#hn为表头行数,nc为表头列数
sheetname=u'Sheet3'
def readexcel(hn,nc):
    data = xlrd.open_workbook(path)
    table = data.sheet_by_name(sheetname)
    nrows = table.nrows
    data=[]
    for i in range(hn,nrows):
        data.append(table.row_values(i)[nc:])
    return np.array(data)
def entropy(data0):
    #返回每个样本的指数
    #样本数，指标个数
    n,m=np.shape(data0)
    #一行一个样本，一列一个指标
    #下面是归一化
    maxium=np.max(data0,axis=0)
    minium=np.min(data0,axis=0)
    data= (data0-minium)*1.0/(maxium-minium)
    ##计算第j项指标，第i个样本占该指标的比重
    sumzb=np.sum(data,axis=0)
    data=data/sumzb
    #对ln0处理
    a=data*1.0
    a[np.where(data==0)]=0.0001
#    #计算每个指标的熵
    e=(-1.0/np.log(n))*np.sum(data*np.log(a),axis=0)
#    #计算权重
    w=(1-e)/np.sum(1-e)
    recodes=np.sum(data*w,axis=1)
    return recodes
data=readexcel(hn,nc)
grades=entropy(data)

计算结果：

In[34]:grades
Out[34]: 
array([0.08767219, 0.07639727, 0.08342572, 0.07555273, 0.08920511,
       0.11506703, 0.06970125, 0.09550656, 0.09852824, 0.10232353,
       0.10662037])

fsfsfsdfsdfdr

关注

38
点赞
踩
268

收藏

觉得还不错? 一键收藏
5
评论
熵值法

一、基本原理在信息论中，熵是对不确定性的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。根据熵的特性，可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响（权重）越大，其熵值越小。在信息论中，熵是对不确定性信息的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，...
复制链接

扫一扫