python决策树分类导入数据集_用Python构建和可视化决策树

最新推荐文章于 2022-10-12 21:48:15 发布

weixin_39929465

最新推荐文章于 2022-10-12 21:48:15 发布

阅读量1.4k

点赞数

文章标签： python决策树分类导入数据集

作者|Nikhil Adithyan

编译|VK

来源|Towards Data Science

bVcIian

决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。

决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下，树将进行拆分，使每个组的均方误差最小。

决策树的一个重要特性是它们很容易被解释。你根本不需要熟悉机器学习技术就可以理解决策树在做什么。决策树图很容易解释。

利弊

决策树方法的优点是：决策树能够生成可理解的规则。

决策树在不需要大量计算的情况下进行分类。

决策树能够处理连续变量和分类变量。

决策树提供了一个明确的指示，哪些字段是最重要的。

决策树方法的缺点是：决策树不太适合于目标是预测连续属性值的估计任务。

决策树在类多、训练样本少的分类问题中容易出错。

决策树的训练在计算上可能很昂贵。生成决策树的过程在计算上非常昂贵。在每个节点上，每个候选拆分字段都必须进行排序，才能找到其最佳拆分。在某些算法中，使用字段组合，必须搜索最佳组合权重。剪枝算法也可能是昂贵的，因为许多候选子树必须形成和比较。

Python决策树

Python是一种通用编程语言，它为数据科学家提供了强大的机器学习包和工具。在本文中，我们将使用python最著名的机器学习包scikit-learn来构建决策树模型。我们将使用scikit learn提供的“DecisionTreeClassifier”算法创建模型，然后使用“plot_tree”函数可视化模型。

步骤1：导入包

我们构建模型的主要软件包是pandas、scikit learn和NumPy。按照代码在python中导入所需的包。import pandas as pd # 数据处理

import numpy as np # 使用数组

import matplotlib.pyplot as plt # 可视化

from matplotlib import rcParams # 图大小

from termcolor import colored as cl # 文本自定义

from sklearn.tree import DecisionTreeClassifier as dtc # 树算法

from sklearn.model_selection import train_test_split # 拆分数据

from sklearn.metrics import accuracy_score # 模型准确度

from sklearn.tree import plot_tree # 树图

rcParams['figure.figsize'] = (25, 20)

在导入构建我们的模型所需的所有包之后，是时候导入数据并对其进行一些EDA了。

步骤2：导入数据和EDA

在这一步中，我们将使用python中提供的“Pandas”包来导入并在其上进行一些EDA。我们将建立我们的决策树模型，数据集是一个药物数据集，它是基于特定的标准给病人开的处方。让我们用python导入数据!

Python实现：df = pd.read_csv('drug.csv')

df.drop('Unnamed: 0', axis = 1, inplace = True)

print(cl(df.head(), attrs = ['bold']))

输出：Age Sex BP Cholesterol Na_to_K Drug

0 23 F HIGH HIGH 25.355 drugY

1 47 M LOW HIGH 13.093 drugC

2 47 M LOW HIGH

最低0.47元/天解锁文章

weixin_39929465

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python决策树分类导入数据集_用Python构建和可视化决策树

作者|Nikhil Adithyan编译|VK来源|Towards Data Science决策树决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的一个重要特...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。