决策树的学习--并且可视化决策树

本文探讨了决策树作为分类器的优势,如无需数据归一化、可可视化及避免过拟合的策略。讨论了决策树的参数选择,如属性选择度量(信息增益、基尼指数)、划分策略、最大树深以及最小采样限制,以防止过拟合。通过分析`feature_importances_`和`n_features_`,强调了特征重要性的评估。示例程序展示了决策树的结构,揭示了不同特征的重要性。
摘要由CSDN通过智能技术生成

决策树是一种分类器,在决策树中,每个非树叶节点代表一个属性上的测试,每个分支代表该测试的一个输出,而每个树叶节点存放一个类标号,树的顶端节点为根节点。
在决策树的分类情况中,不需要任何领域知识或者参数设置,因此适合探索式知识发现,并且,其他的分类方法多需要数据归一化处理,但决策树而言,可以不采用数据归一化,直接进行训练,并且决策树是可以进行可视化,看最后的树的形式是怎么样的,这是他的好处。
决策树的坏处在于可能产生过拟合的现象,并且常用的树剪枝的方法并不提供,设置合理的树深以及叶子节点的个数可以避免过拟合的情况;并且可以选择合适的特征,也即可以利用PCA,ICA,Feature selection方法来得到好的特征;可以先确定树深(max_depth)为3的情况下,然后根据实际情况来增加树深;使用min_samples_split或者min_samples_leaf来控制叶子节点中的采样的数目,避免过拟合,很小的数值情况下,容易过拟合,可以先采用5作为初始的值,然后再根据实际情况来进行判断。
在训练数据为:训练集的规模: 1249,训练集中1类的个数:657,训练集中0类的个数:592。此时选用的是缺省时的默认参数。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值