机器学习：决策树的划分依据

最新推荐文章于 2024-09-11 21:41:09 发布

2034丶

最新推荐文章于 2024-09-11 21:41:09 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：决策树的划分依据

本文链接：https://blog.csdn.net/qq_45315982/article/details/103398514

版权

机器学习专栏收录该内容

25 篇文章 2 订阅

订阅专栏

决策树的划分依据之一信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：
在这里插入图片描述

注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

信息熵的计算：
在这里插入图片描述
条件熵的计算：
注：C_k表示属于某个类别的样本数

例子：
在这里插入图片描述 结论：决策树的分类依据之一：信息增益

常见其他决策树使用的算法：
ID3
信息增益最大的准则
C4.5
信息增益比最大的准则
CART
回归树: 平方误差最小
分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则

sklearn决策树API

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

决策树分类器
criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子

method:
decision_path:返回决策树的路径

决策树分类例子：泰坦尼克号能存活人的概率

泰坦尼克号数据
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息，但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单，由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别，存活，乘坐班，年龄，登陆，home.dest，房间，票，船和性别。乘坐班是指乘客班（1，2，3），是社会经济阶层的代表。
其中age数据存在缺失。

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
在这里插入图片描述 泰坦尼克号乘客生存分类模型：流程
1、pd读取数据

2、选择有影响的特征，处理缺失值

3、进行特征工程，pd转换字典，特征抽取
x_train.to_dict(orient=“records”)

4、决策树估计器流程

决策树的结构、本地保存

1、sklearn.tree.export_graphviz() 该函数能够导出DOT格式
tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])

2、工具:(能够将dot文件转换为pdf、png)
安装graphviz
ubuntu:sudo apt-get install graphviz Mac:brew install graphviz

3、运行命令
然后我们运行这个命令
$ dot -Tpng tree.dot -o tree.png

import pandas  as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz

def decision():
    """决策树对泰坦尼克号预测生死"""
    #获取数据
    titan=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

    #处理数据，找特征值和目标值
    x=titan[['pclass','age','sex']]
    y=titan['survived']
    print(x)
    #缺失值处理
    x['age'].fillna(x['age'].mean(),inplace=True)
    #分割数据
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)

    #进行特征工程 当特征是类别时用one-hot 编码
    dict=DictVectorizer(sparse=False)

    x_train=dict.fit_transform(x_train.to_dict(orient="records"))
    print(dict.get_feature_names())

    x_test=dict.transform(x_test.to_dict(orient="records"))
    print(x_train)

    #用决策数进行预测
    dec=DecisionTreeClassifier()
    dec.fit(x_train,y_train)

    #预测的准确率
    print("预测的准确率是：",dec.score(x_test,y_test))

    #导出决策树结构
    export_graphviz(dec,out_file='./tree.dot',feature_names=['年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

    return None
if __name__ == '__main__':
    decision()