学习决策树剪枝前的思考

u hack mai laifv

已于 2024-03-18 10:48:59 修改

阅读量283

点赞数 5

文章标签：学习决策树机器学习笔记

于 2024-03-18 10:39:16 首次发布

本文链接：https://blog.csdn.net/qq_73374011/article/details/136800944

版权

本文通过《数据挖掘导论》中的内容，探讨了分类模型中的训练误差、泛化误差和拟合概念，提出训练集、测试集和检验集的作用，并质疑了检验集选择对过拟合的影响，引发关于随机性和模型优化的思考。

摘要由CSDN通过智能技术生成

一、前言

在了解了分类中决策树的基础知识后，在《数据挖掘导论》书中106面提到了模型的过分拟合问题，107面出现的训练误差和检验误差曲线对比，引发了我学习和总结的想法。

二、分类模型的误差和拟合

书中提及分类的误差大致分为两种：训练误差（training error）和泛化误差（generalization error）。训练误差的别名：再代入误差（resubstitution error）或者表现误差（apparent error）。训练误差是指在训练记录上误分类样本的比例。泛化误差是指模型在未知记录上的期望误差。

书中对拟合一词没有过多解释，而是直接拿来使用了：一个好的分类分类模型不仅要能够很好地拟合训练数据，而且对未知样本也要能够准确的分类。百度对拟合一词的解释是：形象的说，拟合就是把平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种拟合方法。按我一开始的想法，拟合是带有动词含义的趋近，模拟，但是我无法直观理解，究竟这线要拟合的对象是谁？目的是什么？随着老师开始讲解预剪枝的内容，新的问题又出现了，检验集居然是从训练集里提取出来的？按我的理解，原始数据是会被分成两堆，80%的训练集和20%的测试集。我带着测试集的问题去询问老师，同时得到了拟合的答案：检验集存在的意义似乎是调整参数，那么拟合对象显然就是难以用直观方法得到的数学关系，或者说函数。

三、训练集测试集检验集

训练集，验证集，测试集分别是什么_数据集的验证集是什么-CSDN博客一文中，我找到了对三个数据集的解释：“如果给定的样本数据充足，我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集，这三个集合不能有交集，常见的比例是8:1:1。需要注意的是，通常都会给定训练集和测试集，而不会给验证集。这时候验证集该从哪里得到呢？一般的做法是，从训练集中均匀随机抽样一部分样本作为验证集。”接下来是我的一些思考：在对测试集和训练集的两者误差进行拟合程度调试时，过程是否带有随机性？

图像来自百度：

可以见到训练误差在随着结点数增加而减少，检验误差反之，那么从非常大视角来看，这两者的拟合程度调试时，是否可以看作两者的相似度？那么，我从训练集提取到的检验集是不是带有太大的随机性了。是否过拟合完全取决于我检验集的选择？这些问题我还需要思考。

四、

以上是我本次的学习笔记，带有本人许多思考和主观性的想法，若有错误还请大家多多指教！

u hack mai laifv

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
学习决策树剪枝前的思考

我带着测试集的问题去询问老师，同时得到了拟合的答案：检验集存在的意义似乎是调整参数，那么拟合对象显然就是难以用直观方法得到的数学关系，或者说函数。一文中，我找到了对三个数据集的解释：“如果给定的样本数据充足，我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集，这三个集合不能有交集，常见的比例是8:1:1。在了解了分类中决策树的基础知识后，在《数据挖掘导论》书中106面提到了模型的过分拟合问题，107面出现的训练误差和检验误差曲线对比，引发了我学习和总结的想法。
复制链接

扫一扫