【计算机毕设】基于决策树的分类预测 (机器学习)_idea编写决策树模型实现预测-CSDN博客

本文链接：https://blog.csdn.net/fawubio/article/details/134729835

文章目录

🚩0 简介
1 决策树的介绍
- 2 代码流程
3 代码实现
4 基于企鹅（penguins）数据集的决策树分类实践

🚩0 简介

今天学长向大家介绍如何使用机器学习算法做分类和预测

基于决策树的分类预测 (机器学习)

1 决策树的介绍

决策树是一种常见的分类模型，在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先看男方是否有房产，如果有房产再看是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。

决策树的主要优点：

具有很好的解释性，模型可以生成可以理解的规则。
可以发现特征的重要程度。
模型的计算复杂度较低。

决策树的主要缺点：

模型容易过拟合，需要采用减枝技术处理。
不能很好利用连续型特征。
预测能力有限，无法达到其他强监督模型效果。
方差较高，数据分布的轻微改变很容易造成树结构完全不同。

2 代码流程

学长选用两个实际的工程demo来给大家讲解如何使用决策树进行分类预测

Part1 Demo实践

Step1:库函数导入
Step2:模型训练
Step3:数据和模型可视化
Step4:模型预测

Part2 基于企鹅（penguins）数据集的决策树分类实践

Step1:库函数导入
Step2:数据读取/载入
Step3:数据信息简单查看
Step4:可视化描述
Step5:利用决策树模型在二分类上进行训练和预测
Step6:利用决策树模型在三分类(多分类)上进行训练和预测

3 代码实现

3.1 库函数导入

##  基础函数库
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入决策树模型函数
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

3.2 训练模型

##Demo演示LogisticRegression分类

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 1, 0, 1, 0, 1])

## 调用决策树模型
tree_clf = DecisionTreeClassifier()

## 用决策树模型拟合构造的数据集
tree_clf = tree_clf.fit(x_fearures, y_label)

3.3 数据和模型可视化（需要用到graphviz可视化库）

## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()

在这里插入图片描述

## 本段代码实际效果为本地生成PDF可视化文档，在体验过程中可以不运行，可能无法正常展示结果；
## 代码生成的可视化结果会截图展示实际效果
!pip install graphviz 
import graphviz
dot_data = tree.export_graphviz(tree_clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("pengunis")
## 'pengunis.pdf'  目前环境问题，还不能展示

在这里插入图片描述

3.4 模型预测

## 创建新样本
x_fearures_new1 = np.array([[0, -1]])
x_fearures_new2 = np.array([[2, 1]])
## 在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict