python机器学习之决策树

最新推荐文章于 2021-02-19 12:37:32 发布

龙在水中游

最新推荐文章于 2021-02-19 12:37:32 发布

阅读量389

点赞数

分类专栏：机器学习与深度学习

本文链接：https://blog.csdn.net/u012510648/article/details/106282902

版权

机器学习与深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

决策树整体上就是类似于一棵充满if-else的树。

信息：用来消除随机不确定性的东西。

信息熵，单位是比特，可以用来代表不确定性

策略树一种划分的依据是：信息增益

：知道某种特征之后，不确定性减少的最多，就可以先看这个特征，即这个特征的信息增益最大

g(D，A)=H(D)-H(D/A)

H(D)是信息熵，H(D/A)是条件熵，g(D,A)可以看成特征A的信息增益。

决策树太大，太深，会过于拟合，造成泛化能力不强

优点：简单，可视化-可解释能力强，不像深度学习，那么深，很多都在做特征提取，都不知道提取的是什么，所以深度学习会被叫成黑盒子。

缺点：容易产生过拟合。

改进：1.剪枝cart算法

2.随机森林

下面以决策树对鸢尾花进行分类

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier,export_graphviz

def decision_iris():
    """
    用决策树对鸢尾花进行分类
    :return:
    """
    #1.获取数据集
    iris=load_iris()
    #2.划分数据集
    x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target)
    #3.使用决策树
    estimator=DecisionTreeClassifier(criterion="entropy")#entropy 表示以信息增益的方式
    estimator.fit(x_train,y_train)
    #4.模型评估
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)
    # 2.计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)
    #可视化决策树
    export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names)
    return None

结果为：