0415学习笔记：3决策树

RainbowCoral

于 2018-04-15 17:29:27 发布

阅读量218

点赞数

分类专栏： MLiA学习笔记

MLiA学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.决策树--》处理分类问题。最常使用的数据挖掘算法。专家系统中经常使用

2.优势：数据形式容易理解，计算复杂度不高，对中间值缺失不敏感，可处理不相关特征数据。

缺：可能过度匹配

3.信息增益：

划分数据集：无序数据变得有序--》》使用信息论度量信息

如何计算信息增益？（集合信息的度量方式称为熵--信息的期望值）

3-1计算给定数据的熵

#coding:utf-8
from math import log

def calcShannonEnt(dataSet):
    numEntries = len(dataSet) #数据集的总数
    labelCounts = {} #建立数据字典
    for featVec in dataSet:
        currentLabel = featVec[-1] #键：最后一列的数值
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1 #每个键都记录当前类别出现的字数
    shannonEnt = 0.0
    for key in labelCounts: #计算熵
        prob = float(labelCounts[key])/numEntries #类别出现的概率
        shannonEnt -= prob * log(prob,2)
    return shannonEnt #返回熵

def createDataSet():
    dataSet = [[1,1,'yes'],
               [1,1,'yes'],
               [1,0,'no'],
               [0,1,'no'],
               [0,1,'no']]
    labels = ['no surfacing','flippers']
    return dataSet,labels

测试：

import sys
sys.path.append('/home/yang/Software/pycharm-community-2017.3.4/bin/桌面/PycharmProjects/untitled/k18')
import trees
reload(trees)
myDat,labels = trees.createDataSet() 
myDat
trees.calcShannonEnt(myDat)

Out[36]: 0.9709505944546686
def createDataSet():

dataSet = [[1,1,'yes'],
               [1,1,'yes'],
               [1,0,'no'],
               [0,1,'no'],
               [0,1,'no']]
labels = ['no surfacing','flippers']
return dataSet,labels

RainbowCoral CSDN认证博客专家 CSDN认证企业博客

码龄7年

20: 原创

3736: 周排名

133万+: 总排名

6万+: 访问

: 等级

451: 积分

3949: 粉丝

69: 获赞

5: 评论

123: 收藏

私信

关注

分类专栏

最新评论

LaTex错误解决方法——File `xx.sty‘ not found. \renewcommand
qq_41057954: 解决了，太好了！
matlab中libsvm工具箱“svmtrain has been removed. Use fitcsvm instead.”问题解决记录
RainbowCoral: 抱歉才看到。你看按我参考的那个链接里的方法操作可行吗？
matlab中libsvm工具箱“svmtrain has been removed. Use fitcsvm instead.”问题解决记录
Liu红药: 照您说的，改了函数名，也添加了路径，怎么还出现下面这种问题？求指导，谢谢！在当前文件夹或 MATLAB 路径中未找到 'libsvm_svmtrain'，但它位于: D:\Program Files (x86)\Matlab R2018b\toolbox\libsvm-3.24\matlab 更改 MATLAB 当前文件夹或将其文件夹添加到 MATLAB 路径。出错 main (line 42) cg(i,j) = libsvm_svmtrain(train_label,Train_matrix,cmd);
0413学习笔记：实施kNN算法过程中的一些小问题
RainbowCoral: 使用k-近邻算法改进约会网站的效果和手写识别系统.在数据分析--matplotlib创建散点图时直接调用下面函数： datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')会出现如下错误： FileNotFoundError: [Errno 2] No such file or directory: 'datingTestSet2.txt' 故解决方法是指定到当前路径，有两种方法：第一，datingDataMat,datingLabels = file2matrix(r'C:\Users\Administrator\Desktop\k-近邻算 \datingTestSet2.txt') 第二，import os os.chdir(r"C:\Users\Administrator\Desktop\k-近邻算法") #切换路径
0413学习笔记：实施kNN算法过程中的一些小问题
RainbowCoral: import os print os.getcwd() #打印出当前工作目录 os.chdir('the dir which include the file a.txt') #修改当前工作目录

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。