浅谈决策树,RF和GBDT

以下内容仅为自己梳理知识,是许多人博客看后和思考的结晶,无故意抄袭,也记不清都看了哪些大神的博客。。。大家看见切勿怪罪!

 

决策树:

  决策树可分为分类树和回归树.

  ID3,C45是经典的分类模型,可二分类,多分类。它是通过挑选对整体区分度较大的属性,朝着混乱程度减小的方向,迭代建立的过程。使得最终也节点中的样本大体上属于同一类。本质上试讲空间分成叶子节点个互不相交的子空间,标明每个空间的属性,达到分类模型的建立。这样,每来一个新的样本,就会被放入唯一的某个子空间,达到预测分类的效果。

  ID3 使用信息熵来表示混乱程度;C45使用信息增益率。

  熵的计算公式: P(X = xi)= pi   

         H(X)= - ∑ plog pi  通常左式log都是以2或者e为底。这是熵的单位是比特(bit)或者纳特(nat),所以熵 只依赖于X的分布,与X的具体值无关,熵越大,随机变量的不确定性越大。

  CART可用于分类也可用于回归,分类时使用的混乱程度表示是Gini指数

 

转载于:https://www.cnblogs.com/mokayy/p/5797209.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值