决策树与随机森林

1、几个特征相比更看重哪个,就把哪个排在前面,有利于高效的决策
香农:消除随机不确定性的东西
2、信息熵:
在这里插入图片描述
决策树的划分依据:——信息增益
在这里插入图片描述
特征A对于训练集D的信息增益g(D,A),定义为集合D的信息熵,与特征A给定条件下D的信息条件熵H(D|A)之差
3、随机森林
决策树的缺点:决策树学习者可以创建不能很好的推广数据过于复杂的树,这被称为过拟合
改进:减枝cart算法、随机森林
1)森林:包含多个决策树的分类器
训练了5个树,4个结果是是True,1个树是False,最终投票结果是True
2)随机:为了对一组训练集能产生不同的树,让这些树的众数预测的结果准确,要对训练集随机、特征随机
两个随机:
1)训练集随机:bootstrap 随机有放回的抽样
2)特征随机:
即:用N表示训练样本的个树,M表示特征的数目。
然后1)一次随机选出一个样本,重复N次(有可能出现重复样本) 2)随机选出m个特征,m<<M,建立决策树

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值