机器学习实战代码 第三章3-1注释

# -*- coding: cp936 -*-
from math import log


def createDataSet():
         dataSet=[[1,1,'yes'],
                  [1,1,'yes'],
                  [1,0,'no'],
                  [0,1,'no'],
                  [0,1,'no']]
         labels=['no surfacing','flippers']
         return dataSet,labels


def calShannonEnt(dataset):
         numEntries=len(dataset)#计算数据集中实例的总数
         labelCounts={}
         for featVec in dataSet:
                  currentLabel=featVec[-1]
                  #统计当前类别出现的次数,利用到字典的自动添加功能
                  if currentLabel not in labelCounts.keys():
                           labelCounts[currentLabel]=0
                  labelCounts[currentLabel]+=1
                  #能否替换为下面的这一行代码?yes,u can
                  #labelCounts[currentLabel]=labelCounts.get(currentLabel,0)+1
                  print labelCounts


         shannonEnt=0.0
         for key in labelCounts:
                  prob=float(labelCounts[key])/numEntries
                  shannonEnt-=prob*log(prob,2)

labelCounts是这样子的:

>>> import trees
>>> dataSet,labels=createDataSet
>>> calShannonEnt(dataSet)
{'yes': 1}
{'yes': 2}
{'yes': 2, 'no': 1}
{'yes': 2, 'no': 2}
{'yes': 2, 'no': 3}#labelCounts
0.9709505944546686#香农熵


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值