机器学习(5)

决策树

基本流程

根节点

只有一个,树的开始节点

子节点

根节点和叶子节点中间的节点

叶 子节点

树最后的节点,其下再无分支

每个节点都是一个集合,代表一个划分属性

每个分支都相当于一个属性的值

分支的过程就是分类

叶子节点就是分类结果

流程

决策树分类的过程是一个递归过程

1--7 是判断是否是递归返回的情况

8--16 是分类的具体过程

8  中的a*由划分选择中的方法决定

划分选择

信息增益

信息熵(information entropy):度量样本集合纯度(purity)

pk是集合D内第k个样本所占比例

信息熵越低,纯度越高

信息增益(information gain)

集合加绝对值表示集合的基数即集合长度

增益越大,属性a分类效果越好

偏好取值数目较多的属性(缺陷:如将编号作为一个属性,分类后一个一组,分类失去作用,不具泛化能力)

增益率(gain ratio)

ID3(迭代二分器)

4.4 为属性a的固有值,a可能取值数目越多,4.4值越大

先选择信息增益高于平均水平的属性,再找增益率最高的属性

基尼系数 gini index

CART决策树

挑选两个随机样本,不一致的概率

基尼系数越小,纯度越高

属性a的基尼系数

剪枝(pruning)处理

剪枝

预剪枝

在划分之前判断将当前节点化成叶节点能否增加泛化能力,若不能则将其化成叶节点

判断分类前后,纯度是否上升,没有上升则不以该属性划分

优点:减少了不必要的分类,节约时间成本

缺点:有欠拟合的风险

后剪枝

训练成一颗树后,自下而上对非叶子节点进行判断,若将其改为叶子节点可以提高泛化能力则改变

判断去掉该节点是否有利于提高泛化能力,提高则去掉

优点:相较预剪枝保留较多分支,欠拟合风险小

缺点:时间花销成本高

连续与缺失值

连续值处理

连续指该属性的值应为连续的量,如密度重量等

采取二分法,取两点的中间点作为分类点,

当前划分属性为连续值,则可以反复将其作为划分属性

离散属性则不行

缺失值处理

让该样本以不同的概率归到不同的类里

多变量决策树

非叶节点不再是一个属性,而是一个类似线性模型的分类器

请各位大佬批评建议指正!!!

参考文献:

周志华. 机器学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值