机器学习——决策树与随机森林

机器学习——决策树与随机森林

1.决策树的主要元素:根节点、内部节点、叶节点。其中根节点聚集了所有的样本,内部节点表示根据某个特征进行分类,叶节点根据节点内样本数最多的那一类作为输出。

2.决策树的主要处理方式:根据信息增益、信息增益率或者基尼系数这三个指标来选取局部最优的分类特征。

3.决策树由于是递归过程,所以会出现过拟合现象。需要通过剪枝来使得模型的泛化能力增强。

4.决策树主要形式有分类决策树、回归决策树,针对因变量是分类型变量还是连续型变量。

决策树的主要三个算法,主要的区别在于选择特征的标准。
1. ID3算法 (信息增益)
2. C4,5算法 (信息增益率)
3. CART算法 (基尼系数)

信息增益的理论知识:
1.信息熵
2.条件熵
3.互信息
信息熵

条件熵

信息增益(互信息)

ID3就是通过对所有特征进行信息增益(互信息)的比较,选择使得信息增益最大的变量作为分类特征。

以上是理论指标的定义,在实际样本中,有经验熵,经验条件熵的定义。
经验熵:设样本为D&

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值