机器学习实战——决策树

最新推荐文章于 2022-07-05 10:03:12 发布

笑逐燕开

最新推荐文章于 2022-07-05 10:03:12 发布

阅读量306

点赞数

分类专栏：机器学习文章标签：决策树人工智能学习笔记

本文链接：https://blog.csdn.net/vivizhangyan/article/details/80887975

版权

决策树的基本思想
（1）数据挖掘算法的一种，不需要了解具体的机器学习知识，就可以理解决策树的过程。决策树可以使数据集便于理解，类似于数据结构中树结构，根节点为选择的特征，依次为边和叶节点，边可以表示判断条件，叶节点为其他特征。适用的类型为数值型和标称型
（2）优点：计算复杂度不高，输出结果易于理解，对于中间值缺失不敏感（依靠大多数特征就可以进行判断），可以处理不相关特征数据
（3）缺点：可能产生过度匹配问题（匹配选项太多，可以采用剪枝处理）
决策树的实现过程
（1）构造决策树：确定用哪个数据集特征作为分类的第一个特征——>采用递归不断重复划分。所以构造决策树的关键在于确定采用什么原则进行划分
（2）准备数据：树构造算法只适用于标称型数据，所以数值型数据必须离散化
（3）分析数据：构造树完成后，采用图形进行检查是否符合预期
（4）训练算法：构造树的数据结构（与数据结构中树构造方法类似）
（5）测试算法：适用经验树计算错误率
（6）使用算法：采用决策树可以更好的理解数据的内在含义。著名的决策树算法ID3（信息增益，选择最高的），C4.5(增益率),CART（基尼系数）等
决策树的程序编写
(1)划分数据集的原则：将无序的数据变得更加有序。最好的方法是采用信息论量化度量信息。划分数据集之前之后信息发生变化叫做信息增益。
*信息增益
a.熵（entropy）:信息的期望值这里写图片描述
b.信息（Information）:待分类的事务可能划分在多个分类中，表示信息为：I=log2p_i，p_i为选择该分类的概率
增益率：公式插入不方便请自行查找
基尼系数：公式插入不方便请自行查找
（2）具体程序编写

from math import log
import operator

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

def

最低0.47元/天解锁文章

笑逐燕开

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——决策树

决策树的基本思想（1）数据挖掘算法的一种，不需要了解具体的机器学习知识，就可以理解决策树的过程。决策树可以使数据集便于理解，类似于数据结构中树结构，根节点为选择的特征，依次为边和叶节点，边可以表示判断条件，叶节点为其他特征。适用的类型为数值型和标称型（2）优点：计算复杂度不高，输出结果易于理解，对于中间值缺失不敏感（依靠大多数特征就可以进行判断），可以处理不相关特征数据（3）缺点：可能...
复制链接

扫一扫