西瓜书第四章学习笔记

西瓜书第四章学习笔记

知识脉络

第四章决策树知识脉络

一些补充

大部分内容在知识脉络都体现出来了,尤其是一些公式,这里仅做一些补充说明。

4.1 流程

  1. 决策树(判定树):这既是一种学习方法,也指学得的树。

4.2 划分选择

  1. 属性划分:在划分过程中,每个判定测试序列(路径)对于同一个离散属性最多划分一次。
  2. 信息熵:信息熵越大系统的不确定性就越大,系统的可能性就越多。
  3. Pk:在计算信息熵公式中,对于西瓜数据集,一共只有两类样本:‘好瓜’和‘坏瓜’,|y|=2。
  4. 基尼指数:直观理解,基尼指数越小‘纯度’越高,数据集中同一类样本占比越大。

4.3 剪枝

  1. 预剪枝步骤: 首先,依据验证集计算不划分时验证集精度
    然后,计算依据训练集以某个准则进行划分后的验证集精度
    最后,比较划分前后的验证集精度,若划分前大于划分后,说明划分导致树泛化性能降低,不进行划分。若划分后大于划分前,说明划分提高了树的泛化性,进行划分
  2. 后剪枝步骤: 首先,生成完整的树
    其次,自下而上考察,将内部节点替换为叶节点,计算替换前后的验证集精度
    最后,进行比较,若替换前验证集精度大于划分后,说明替换导致树泛化性能降低,不进行替换,保留原来子树。若替换后验证集精度大于替换前,说明替换提高了树的泛化性,进行替换

4.4 连续与缺失值

  1. Ta:候选划分点的集合,每个划分点都是原相邻两特征取值点的中位数,对Ta中每个划分点都计算以其为分割点二分后信息增益,取使信息最大的分割点为作为分支的划分
  2. 解决第一个问题:样本有缺失值如何划分?:依据样本集中该属性上无缺数据的加权来计算改属性的信息增益,最终确定如何划分
  3. 解决第二个问题:测试样本在属性值上有缺失,如何划分测试样本?:用无缺样本的属性值的分布来估计缺失样本属性值的可能分布,对缺失测试样本进行加权,以不同的概率划分到不同的子节点中去,所有的概率加和为1

4.5 多变量决策树

  1. 单变量决策树轴平行原因:因为其内部节点中只依据一种特征进行划分
  2. 多变量决策树和单变量决策树差别:多变量决策树学习(神金网络)过程中不是为每个非叶节点寻找一个最优划分属性,而是对属性的线性组合进行测试,建立一个合适的线性分类器

习题

习题4.3

基于Python3.0的决策树手写算法实现和对西瓜书第四章决策树习题4.3的回答

习题4.4

参考

周志华. (2016). 机器学习. 清华大学出版社, 北京

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值