机器学习(一)决策树与随机森林(1)

机器学习(一)决策树与随机森林(1)

  • 可以做回归、分类

    内容:

     信息熵
     	熵,联合熵,条件熵,互信息 √
     决策树学习算法
     	信息增益
     	ID3,C4.5,CART
     Bagging与随机森林
    

多个决策树建立===形成随机森林,决策的最终结果的和为最终值

分类的时候用的是熵值决策树的分类有明显的锯齿
回归的时候用的可能就是均方方差等准则

  • 理论

决策树 : level

  • 构造决策树的重点

对每一个结点如何分类,如何划分可以使分类鲜明

  • 度量不同划分方法的工具

:信息含量的量化指标,可以用来做系统方程化的目标或参数依据
具体参考 https://www.cnblogs.com/daguonice/p/11179662.html
其中
熵不能为负

  • 信息熵的公式

H(x)=-∑p(xi)log2⁡(p(xi))

p(xi)表示事件xi发生的概率

  1. 对公式的解释
  2. 让概率可加:求对数
  3. 让熵非负:式子前加负号
  4. 对每一个xi有不同的对数值和概率值
  5. 因此对事件X求 期望 就得到上述公式H(x)

联合熵、条件熵、互信息
联合熵
相应的,可得X,Y的联合熵就是把P(X)变成联合分布的P(X,Y)
条件熵
对上述熵值, H(X,Y) – H(X)就表示在X发生的前提下,Y的熵H(Y|X)
互信息
H(X,Y)- H(Y)=H(X|Y)
有H(X)+H(Y)-H(X,Y)=I(X,Y) 表示互信息
同时可以有
H(Y|X)=H(Y)- I(X,Y)
============ 延伸===============
交叉熵

  • 决策树实例
  • 注意点:
  1. 不是所有的决策树都是二叉树
  2. 不是所有的属性都用来做判断
  3. 也可以对所有N个属性分成x个n属性的决策树
  4. 当对应的叶子结点的熵=0,就证明分类分对了,不用再划分了

决策树
根据4得结论,我们的划分策略是:
从根结点往下向叶子结点求熵,熵降的越快越好,贪心算法,则每一步的熵降的越快越好,不过不见得这种划分是最优的。

决策树 Decision Tree

  • 决策树是一种树型结构,其中每隔内部结点表示在一个属性上的测试,每个分治代表一个测试输出,每个叶结点代表一种类别
  • 决策树学习是以实例为基础的归纳学习
  • 决策树学习采用自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶节点中的实例都属于同一类。

决策树学习的生成方法----见随机森林与决策树 ( 2 )

建立决策树的关键,即在当前状态下选择哪个属性作为分类依据,根据不同的目标函数,建立决策树主要有以下三种算法

  1. ID3 Iterative Dichotomiser

  2. C4.5

  3. CART Classification And Regression Tree

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值