决策树

本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关。
本文章是自己学习的一些记录。

开始

决策树是一种树结构的有监督分类算法。该算法的优点是计算的复杂度不高,对中间值的缺失不敏感,可以处理不相关特征数据,缺点是会产生过度匹配。

熵是集合信息的一种度量方式,通俗来讲就是代表着一个集合元素的混乱程度。
例如:
联合概率密度:P(X,Y)=P(X)*P(Y) 其中 X和Y两个事件相互独立 Log(XY)=Log(X)+Log(Y)
H(X),H(y)看作是它们发生的不确定性
因此:
P(概率越大) H(X)值越小 P(概率越小) H(X)值越大

熵的计算公式:
在这里插入图片描述
例如A集合[1,2,2,3,3,5,6,7,8] B集合为[1,1,1,1,1,1,1,1,1]
此时的B集合的熵的计算p(xi)为1,所以log1 =0所以熵的值的累加为0 此时的混乱程度就为0
在决策树当中其实就是为了构建一个比较矮的树,使得节点的熵迅速的降低,熵降低的速度越快越好

信息增益

信息增益是熵的减少或者是数据无序的减少,表示信息复杂度程度减少的一个程度。常利用信息增益来比较划分特征最好的索引值。

建立决策树通常常见的3种算法:
1、ID3算法:
是用信息增益来判别当前节点应用什么特征来构建决策树。某个特征的信息增益越大表示该特征对数据集的分类的不确定性减少的程度越高,约适合用来分类
该算法的核心是在决策树各个节点上应用信息增益准则来选择特征,递归的构建决策树,相当于用极大似然估计法进行概率模型的选择。
2、C4.5
该算法在生成的过程中,用信息增益比来选择特征

3、CART算法
使用Gini系数来选择特征
计算公式:
在这里插入图片描述

随机森林

随机森林是基于决策树,基于Bagging 方法 是一种集成学习,相当于形成很多决策树,最后把所有的决策树的决策放在一起再进行决策。
之前看到过一个案例:利用随机森林预测科比数据:
该篇博客:
https://blog.csdn.net/ling_mochen/article/details/80205419?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160349818519724842921967%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160349818519724842921967&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-5-80205419.first_rank_ecpm_v3_pc_rank_v2&utm_term=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%A7%91%E6%AF%94&spm=1018.2118.3001.4187

结束

今天是1024 程序员节祝所有的程序员都不再脱发,有个好的身体。
另外1024 也纪念一下科比,证明自己最好的方法就是使自己变的强大。
—致敬老大
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值