（《机器学习》完整版系列）第15章规则学习——15.5 剪枝优化(预剪枝（阻止生长）和后剪枝（“由长变短”）)

人工干智能

已于 2023-03-31 11:11:39 修改

阅读量196

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：剪枝机器学习决策树

于 2023-03-22 18:20:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129715697

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 24 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

剪枝优化

将规则的“由短变长”的过程看成是树枝生长过程，那么，对树就有剪枝，包括预剪枝（阻止生长）和后剪枝（“由长变短”），在讲决策树时讨论过，这里与其相似，不再赘述。

剪枝过程涉及到规则的取舍，可以用统计显著性检验：设计一个统计量，并指定其阈值，然后，对某个规则，在训练集中计算该统计量的值，与阈值比较来决定该规则的取舍。

$\text{CN}_2$ 算法是预剪枝，使用似然率统计量LRS（参见2.7 具体的性能检验方法中的式(28)，变形即为【西瓜书式(15.2)】所示。式中对数中的分数具有特点：

分子：规则所覆盖的正（反）样例的占比。
分母：训练集中实际的正（反）样例的占比。

通常设定一个较大的阈值（如：0.99），当LRS大于阈值时，“树”停止生长。

降错剪枝（REP）是一种后剪枝，其简化版为IREP，若将其与“后处理优化”进行结合，更能有效地提升学习速度，突出的代表算法有RIPPER【西瓜书图15.2】所示，我们分析一下该算法的来龙去脉。

(i) 将训练集 $D$ ，分解为 $D^{'}$ 与 $D^{''}$ ，分别在 $D^{'}$ 和 $D^{''}$ 上训练出规则集 $\mathcal{R} '$ 和 $\mathcal{R}''$ ，再以 $\mathcal{R}'\cup \mathcal{R}''$ 近似地作为 $D'\cup D''$ 的规则集，即 $D$ 的规则集 $\mathcal{R}=\mathcal{R}'\cup \mathcal{R}''$ 。
图15.3 分解后训练

图15.3 分解后训练

(ii) 如何训练集 $D$ 的分解？将图15.3 中的显示分解改为“隐式分解”，如图15.4 所示：
图15.4 隐式分解

图15.4 隐式分解

(1) 修改 $\mathcal{R}'$ 的生成路径：由 $D$ 生成 $\mathcal{R}$ ，再对 $\mathcal{R}$ 进行优化，结果记为 $\mathcal{R}'$ ；

(2) 已知 $\mathcal{R}'$ 后，设 $D$ 中被 $\mathcal{R}'$ 所覆盖的为 $D^{'}$ ，未覆盖的即为 $D^{''}$ ，则完成了“隐式分解”；

(3) 后续同图15.3 ，即 $D$ 的规则集更新为 $\mathcal{R}=\mathcal{R}'\cup \mathcal{R}''$ 。

(iii) 图15.4 中，从 $\mathcal{R}$ 到新 $\mathcal{R}$ （更新后的 $\mathcal{R}$ ），再在新 $\mathcal{R}$ 的基础上进行下一轮迭代，由此形成一个迭代算法，以 $i$ 记迭代次数，并指定终止值 $K$ ，则算法可描述成【西瓜书图15.2】的伪代码。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：15.4 序贯覆盖（规则集与数据集）
下一篇：15.6 一阶逻辑公式及“分拆”

人工干智能

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第15章规则学习——15.5 剪枝优化(预剪枝（阻止生长）和后剪枝（“由长变短”）)

将规则的“由短变长”的过程看成是树枝生长过程，那么，对树就有剪枝，包括预剪枝（阻止生长）和后剪枝（“由长变短”）。剪枝过程涉及到规则的取舍，可以用统计显著性检验
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。