Python3机器学习之02通过计算熵来选择分组

该博客介绍了使用Python3进行机器学习时,如何运用分而治之的思想来处理数据集。作者详细阐述了如何导入数据、分割特征,并遍历数据集以计算香农熵,寻找最佳特征划分策略。在实践中遇到了`TypeError: return arrays must be of ArrayType`的错误,通过调整numpy.log函数的使用方式或切换到math模块的log函数解决了问题。
摘要由CSDN通过智能技术生成
from numpy import *
def calshannonent(dataset):   #计算信息熵
    numentries=len(dataset)
    labelcounts={}
    for featvec in dataset:               #对dataSet的每一个元素进行处理  
        currentlabel=featvec[-1]        #//将dataSet的每一个元素的最后一个元素选择出来        
        if currentlabel not in labelcounts.keys():  
            labelcounts[currentlabel]=0  #//若没有该键,则使用字典的自动添加进行添加值为0的项,取0是因为下一行代码              
        labelcounts[currentlabel] +=1    #对currentlabel计数,每有一个key:currentlabel,就在对应的key的值上加一
    shannonent=0
    for key in labelcounts:
        prob=float(labelcounts[key])/numentries
        shannonent -= prob*math.log(prob,2)
    return shannonent


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值