机器学习实战——决策树

决策树的基本思想
(1)数据挖掘算法的一种,不需要了解具体的机器学习知识,就可以理解决策树的过程。决策树可以使数据集便于理解,类似于数据结构中树结构,根节点为选择的特征,依次为边和叶节点,边可以表示判断条件,叶节点为其他特征。适用的类型为数值型和标称型
(2)优点:计算复杂度不高,输出结果易于理解,对于中间值缺失不敏感(依靠大多数特征就可以进行判断),可以处理不相关特征数据
(3)缺点:可能产生过度匹配问题(匹配选项太多,可以采用剪枝处理)
决策树的实现过程
(1)构造决策树:确定用哪个数据集特征作为分类的第一个特征——>采用递归不断重复划分。所以构造决策树的关键在于确定采用什么原则进行划分
(2)准备数据:树构造算法只适用于标称型数据,所以数值型数据必须离散化
(3)分析数据:构造树完成后,采用图形进行检查是否符合预期
(4)训练算法:构造树的数据结构(与数据结构中树构造方法类似)
(5)测试算法:适用经验树计算错误率
(6)使用算法:采用决策树可以更好的理解数据的内在含义。著名的决策树算法ID3(信息增益,选择最高的),C4.5(增益率),CART(基尼系数)等
决策树的程序编写
(1)划分数据集的原则:将无序的数据变得更加有序。最好的方法是采用信息论量化度量信息。划分数据集之前之后信息发生变化叫做信息增益。
*信息增益
a.熵(entropy):信息的期望值这里写图片描述
b.信息(Information):待分类的事务可能划分在多个分类中,表示信息为:I=log2p_i,p_i为选择该分类的概率
增益率:公式插入不方便请自行查找
基尼系数:公式插入不方便请自行查找
(2)具体程序编写

from math import log
import operator

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

def 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值