决策树

最新推荐文章于 2022-12-26 23:02:21 发布

王乐乐0727

最新推荐文章于 2022-12-26 23:02:21 发布

阅读量202

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wanglele1/article/details/98315610

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

一，决策树算法的核心是要解决两个问题：
1）如何从数据表中找出最佳节点和最佳分枝？
2）如何让决策树停止生长，防止过拟合？
**

sklearn中的决策树

二，sklearn的基本建模流程

重要参数
一，criterion
1，为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。
2，通常来说，不纯度越低，决策树对训练集的拟合越好。
3，子节点的不纯度一定是低于父节点的，在同一棵决策树上，叶子节点的不纯度一定是最低的

三，建立一棵树

**
一，导入需要的算法和模块

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd

二，查看数据

wine = load_wine()
print(wine.data)
print(wine.target)
print(wine.data.shape)
print(pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1))
print(wine.feature_names)
print(wine.target_names)

三，分训练集和测试集

xtrain,xtest,Ytrain,Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
print(xtrain.shape,xtest.shape)

四，建立模型

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(xtrain,Ytrain)
score = clf.score(xtest,Ytest)
print(score)

四，减支参数

**
为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化
决策树算法的核心。sklearn为我们提供了不同的剪枝策略

max_depth
限制树的最大深度，超过设定深度的树枝全部剪掉，实际使用时，建议从3开始

*min_samples_leaf & min_samples_split

王乐乐0727

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

一，决策树算法的核心是要解决两个问题：1）如何从数据表中找出最佳节点和最佳分枝？2）如何让决策树停止生长，防止过拟合？**sklearn中的决策树二，sklearn的基本建模流程重要参数一，criterion1，为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。2，通常来说，不纯度越低，决策树对训练集的拟合越好...
复制链接

扫一扫

专栏目录