机器学习之决策树(Decision Tree)&随机森林(Random forest)

决策树是机器学习中最接近人类思考问题的过程的一种算法,通过若干个节点,对特征进行提问并分类(可以是二分类也可以使多分类),直至最后生成叶节点(也就是只剩下一种属性),下面这张图形象表示了决策树的过程:

而随机森林是基于决策树过拟合提出的基于多个弱分类器vote投票的方式的一种集成学习算法.

1. Decision tree 结构:1个根节点+多干内部节点和叶节点,根节点和若干内部节点是判断模块,用来判断对特征怎样分类,叶节点是终止模块,到这里决策树就完成了分类过程.

2.决策树之三部曲:

feature selection+Decision tree生成(递归过程)+pruing(剪枝,防止过拟合)

3.决策树分支节点划分原则:纯度原则(Purity),分支节点的样本尽可能属于同一类,也就是纯度越高越好

判断纯度引入数学参数:信息熵用来描述信息的不确定度,信息熵越大,信息越不确定,包含的可能性就越大

其公式为:

因此决策树的分支的原则是让熵最终越小越好,这样就要求在每次分支的时候信息增益是最大的,这样熵减小的就快,收敛快,直到最终熵最小,完成分类.

这里引入信息论中的熵 H(X),联合熵 H(X,Y),条件熵 H(X|Y),互信息 I(X,Y) 的概念,四者关系简单如下图:

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值