决策树实验（对乳腺癌数据集进行训练和预测+graphviz模块下载安装）

最新推荐文章于 2024-05-28 02:00:00 发布

蓝胖子Y

最新推荐文章于 2024-05-28 02:00:00 发布

阅读量3.5k

点赞数 4

分类专栏： Python机器学习文章标签： python 深度学习决策树

本文链接：https://blog.csdn.net/m0_57118572/article/details/124462034

版权

注：在本次实验中需安装graphviz模块

在用命令提示符（pip）安装不上模块时，可以直接在官网上下载https://graphviz.org/download/安装包

官网上下载有点慢：可以用网盘下载：链接：https://pan.baidu.com/s/1qikLWkNxU3TOasa4iV2pRw?pwd=qko1
提取码：qko1（在后续文章中会有问题的出现以及解决方法）

1.引入库、数据集

对数据集进行初步的处理，并将其划分为训练集和测试集

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
#加载数据
cancer = load_breast_cancer()
#分离数据，stratify作用为以分层方式分割数据，保持测试集与整个数据集里cancer.target的数据分类比例一致
#随机数种子为42
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=42)

在无参数设置情况下，输出得分

#调用函数
tree = DecisionTreeClassifier(random_state=0)
#训练模型
tree.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

输出结果：

2.调参

利用数组和循环（学习曲线）求得最优参数（对比criterion值为‘gini’、'entropy'的得分）导入乳腺癌数据集，并在无参数设置情况下，输出得分

（1）当criterion='gini'时

#利用数组循环求得最优参数
score0= []
C = range(1,101,10)
for i in C:
    tree = DecisionTr

最低0.47元/天解锁文章

蓝胖子Y

关注

4
点赞
踩
66

收藏

觉得还不错? 一键收藏
打赏
0
评论
决策树实验（对乳腺癌数据集进行训练和预测+graphviz模块下载安装）

利用决策树以及随机森林对乳腺癌数据进行训练和预测，通过学习曲线来调整调整一些参数，并且通过对特征重要性实现max_depth的确定
复制链接

扫一扫

专栏目录