决策树

  1. 决策树是应用最广的归纳推理算法之一,是一种逼近离散值函数的方法,具有很好的健壮性,能够学习析取表达式.
  2. 常用的算法有ID3,Assistant,C4.5
  3. 决策树可以搜索一个完整表示的假设空间,归纳偏执是有限选择较小的树。
  4. 决策树适用问题举例:根据疾病分类患者,根据起因分类设备故障,根据拖欠支付的可能性分类贷款申请。
  5. ID3的思想是自顶向下构建决策树,从“哪一个属性将在树的根节点被测试”开始,使用统计测试来确定每一个实例属性单独分类训练样例的能力。
  6. ID3算法的过程:
    1. 分类能力最好的属性被选作树的根节点。
    2. 根节点的每一个可能值产生一个分支。
    3. 训练样例排列到适当的分支。
    4. 重复上面的过程。
  7. ID3算法的终止条件:所有的属性已经被这条路径包括或者与这个节点管理的所有训练样例都具有相同的目标函数。
  8. 信息增益:用来衡量给定的属性区分训练样例的能力;ID3算法在增长数的每一步使用信息增益从候选属性中选择属性。
  9. 熵:信息论中对于熵的一种解释,熵确定了要编码的集合S中任意成员的分类所需要的最小二进制位数。用熵来度量样例的均一性,熵刻画了任何人样例集的纯度。
  10. ID3算法的搜索策略:
    1. 优先选择较短的树。
    2. 选择那些信息增益高的属性离根节点较近的树。
    3. 很难准确的刻画ID3的归纳偏执。
  11. 近似的ID3的归纳偏执:较短的树比较长的树优先,信息增益高的属性更靠近根节点的树优先。
  12. ID3算法与候选消除算法的比较:
    1. ID3算法的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间。
    2. 候选消除算法的搜索范围是不完整的假设空间,但是彻底地搜索这个空间。
    3. ID3算法的归纳偏执完全是搜索策略排序假设的结果,来自搜索策略。
    4. 候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义。
  13. 奥坎姆剃刀:优先选择拟合数据的最简单的假设。
  14. 过度拟合:
    1. 过度拟合的原因:
      1. 一种可能的原因是训练样例中含有随机错误或噪声。
      2. 特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但是与实际的目标函数并无关系。
    2. 避免过度拟合的方法:
      1. 及早停止树增长。这种方法更直观,精确地估计何时停止树的增长。
      2. 后检修发。这种方法在实践中被证明更有用。
  15. 将决策苏转化为规则集的好处:
    1. 可以区分决策树节点使用的不同上下文。
    2. 消除了跟节点附近的属性测试和叶子节点附近的属性测试的区别。
    3. 提高了可读性。
  16. 信息熵和信息增益的计算:
               
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值