香农熵又称信息熵,反映了一条信息的信息量大小和它的不确定性之间的关系,是信息量的度量,单位为 bit。
对于某件事情
不确定性越大,熵越大,确定该事所需的信息量也越大;
不确定性越小,熵越小,确定该事所需的信息量也越小。
假设有一事件 X X ,事件有 i i 种可能性,每一种可能性发生的概率记为,则香农熵的计算公式为:
H(X)=−∑i=1nP(Xi)log2P(Xi)
H
(
X
)
=
−
∑
i
=
1
n
P
(
X
i
)
log
2
P
(
X
i
)
计算给定数据集的香农熵(python模块):
def calsShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
for dataVec in dataSet:
label = dataVec[-1]
if label not in labelCounts.keys():
labelCounts[label] = 0
labelCounts[label] += 1
shannonEnt = 0.0
for key in labelCounts.keys():
prob = float(labelCounts[key]) / numEntries
shannonEnt -= prob * math.log(prob, 2)
return shannonEnt
if __name__ == "__main__":
print("Code Run As A Program")