<机器学习笔记-05 ><scikit-learn 05>决策树 & 随机森林

最新推荐文章于 2024-09-19 10:43:27 发布

赵鹏举

最新推荐文章于 2024-09-19 10:43:27 发布

阅读量4k

点赞数

分类专栏：机器学习 machine learning 文章标签： python 机器学习决策树随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25040013/article/details/52565414

版权

本文深入探讨了决策树的原理，包括熵、信息增益和基尼不纯度等概念，以及如何在Python中使用scikit-learn构建决策树和随机森林。还介绍了集成学习方法，强调了随机森林的优势和防止过拟合的能力。

摘要由CSDN通过智能技术生成

<机器学习笔记-05 >决策树

关键词：机器学习，决策树

摘要：本文主要介绍了笔者对于决策树原理的理解。

知识要点总结
1. 掌握决策树、分类器、积极/消极学习方法、集成学习的概念；
2. 掌握构建决策树、随机森林的方法；
3. 掌握熵、信息增益、基尼不纯度的概念和计算方法；
4. 掌握在python中使用基本数学、决策树和随机森林的方法；
概念理解：
1. 决策树：
  1. 是一种分类器；通过训练数据构建决策树，对未知数据进行分类；
  2. 构成：一个根结点（样本全集）、若干内部结点（属性测试）、若干叶结点（决策结果）；
  3. 判定过程：输入一组未知数据，从根结点出发，按照决策树的判定测试序列，运行到叶结点输出决策结果；
  4. 决策树学习目的：产生泛化能力强（处理未见示例能力强）的决策树；
  5. 积极学习方法（eager learner）：先从训练集建立一个与后面需求无关的模型，模型一旦建好后可以很快的预测出结果；消极学习方法（lazy learner）：如KNN（k-Nearest Neighbor）有了训练集数据的预测需求，才会开始学习整个数据的特征；不需要花时间训练预测能力，但比积极学习方法预测慢；
2. 熵（Entropy）
  1. 如何确定决策树应该先测试哪个解释变量？解决思路：较好的测试可以更大程度上降低分类的不确定度性；
  2. 熵：度量信息的不确定性；以比特（bits）为单位；完全确定的分类，其熵为0比特；其公式为
    
    $H (x) = - \sum i = 1 n P (x i) l o g b P (x i)$ $H(x)=-\displaystyle\sum_{i=1}^{n}P(x_i)log_bP(x_i)$
    
    其中， $n$ 是样本的数量， $P(x_i)$ 是第 $i$ 个样本的概率； $b$ 一般取2或 $e$ 或10；前面加符号是为了熵为非负数；
  3. 举例以方便理解：
    1. ##### 投掷硬币一次，正反面概率各为0.5，则硬币投掷一次的结果变量熵为
    H(x)=−(0.5log20.5+0.5log20.5)=1.0
    1. ##### 投掷硬币一次，正面概率0.8，反面概率0.2，则硬币投掷一次的结果变量熵为0.72；不确定性降低了，向另一种结果更加靠近；
    H(x)=−(0.8log20.8+0.2log20.2)=0.72
    1. ##### 投掷硬币一次，正面概率为1.0，反面概率为0，则硬币投掷一次的结果变量熵为0

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。