Python scikit-learn,分类,决策树与随机森林,DecisionTreeClassifier,RandomForestClassifier,信息熵

本文介绍了信息熵的概念及其在决策树中的作用,解释了信息增益和决策树算法如ID3、C4.5和CART。通过scikit-learn展示了如何使用DecisionTreeClassifier和RandomForestClassifier,并以泰坦尼克号乘客生死预测为例。随机森林作为集成学习方法,通过构建多个决策树进行预测。文章讨论了随机森林的构建过程,包括训练集的有放回抽样和特征选择。
摘要由CSDN通过智能技术生成

信息熵用来度量信息的混乱程度(不确定性),单位:比特。(信息熵越小 表示结果越确定)

信息熵H(x)的公式如下:

H(x) = - \sum_{i=1}^{n}p(x_{i}) \cdot log_{2}p(x_{i}) , i=1,2,...,n  

P(x_{i})表示所有可能的事件发生的概率。  -log_{2}P(x_{i})表示可能事件发生后包含的信息量(越小概率事件发生所包含的信息量越大。例如:中国乒乓球队获胜比美国乒乓球队获胜包含的信息量少)。

根据公式可以得到:当P(x_{i})都相等时,H(x)最大。即,当所有可能事件发生的可能性都相同时,信息熵最大。(例如:世界杯32个球队,当所有球队获胜的概率相同时,“谁是冠军”的信息熵最大,信息最混乱,不确定性最大)。

信息增益:某个条件(特征值)确定的情况下,对信息熵的减少量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值