李航统计学习例5,1 根据信息增益选择最优特征

最新推荐文章于 2022-03-25 14:36:02 发布

only卉

最新推荐文章于 2022-03-25 14:36:02 发布

阅读量636

点赞数

本文链接：https://blog.csdn.net/weixin_40230767/article/details/79082264

版权

这段代码展示了如何计算数据集的熵，并根据信息增益选择最优特征进行数据划分。通过对给定的数据集进行处理，计算各个特征的信息增益，并找出信息增益最大的特征。

摘要由CSDN通过智能技术生成

from numpy import *
from math import log

# 计算数据集的熵
def calcShannonEnt(dataset):
    numdataset=len(dataset)
    labelCount={}
    for data in dataset:
        curlabel=data[-1]
        if curlabel not in labelCount.keys():
            labelCount[curlabel]=0
        labelCount[curlabel]+=1
    shannonEnt=0.0
    for key in labelCount:
        prob=float(labelCount[key])/numdataset
        shannonEnt-=prob*log(prob,2)
    return shannonEnt

# 加载数据
def creatDataSet():
    dataset=[['青年','否','否','一般','否'],
             ['青年','否','否','好','否'],
             ['青年','是','否','好','是'],
             ['青年','是','是','一般','是'