学习决策树剪枝前的思考

本文通过《数据挖掘导论》中的内容,探讨了分类模型中的训练误差、泛化误差和拟合概念,提出训练集、测试集和检验集的作用,并质疑了检验集选择对过拟合的影响,引发关于随机性和模型优化的思考。
摘要由CSDN通过智能技术生成

一、前言

  在了解了分类中决策树的基础知识后,在《数据挖掘导论》书中106面提到了模型的过分拟合问题,107面出现的训练误差和检验误差曲线对比,引发了我学习和总结的想法。

二、分类模型的误差和拟合

  书中提及分类的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。训练误差的别名:再代入误差(resubstitution error)或者表现误差(apparent error)。训练误差是指在训练记录上误分类样本的比例。泛化误差是指模型在未知记录上的期望误差。

 

  书中对拟合一词没有过多解释,而是直接拿来使用了:一个好的分类分类模型不仅要能够很好地拟合训练数据,而且对未知样本也要能够准确的分类。百度对拟合一词的解释是:形象的说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。按我一开始的想法,拟合是带有动词含义的趋近,模拟,但是我无法直观理解,究竟这线要拟合的对象是谁?目的是什么?随着老师开始讲解预剪枝的内容,新的问题又出现了,检验集居然是从训练集里提取出来的?按我的理解,原始数据是会被分成两堆,80%的训练集和20%的测试集。我带着测试集的问题去询问老师,同时得到了拟合的答案:检验集存在的意义似乎是调整参数,那么拟合对象显然就是难以用直观方法得到的数学关系,或者说函数。

三、训练集 测试集 检验集

  训练集,验证集,测试集分别是什么_数据集的验证集是什么-CSDN博客一文中,我找到了对三个数据集的解释:“如果给定的样本数据充足,我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集,这三个集合不能有交集,常见的比例是8:1:1。需要注意的是,通常都会给定训练集和测试集,而不会给验证集。这时候验证集该从哪里得到呢?一般的做法是,从训练集中均匀随机抽样一部分样本作为验证集。”接下来是我的一些思考:在对测试集和训练集的两者误差进行拟合程度调试时,过程是否带有随机性?

 

图像来自百度:5f6b68ce2a1f47dd9c6b753d11e06fde.jpeg

 可以见到训练误差在随着结点数增加而减少,检验误差反之,那么从非常大视角来看,这两者的拟合程度调试时,是否可以看作两者的相似度?那么,我从训练集提取到的检验集是不是带有太大的随机性了。是否过拟合完全取决于我检验集的选择?这些问题我还需要思考。

四、

  以上是我本次的学习笔记,带有本人许多思考和主观性的想法,若有错误还请大家多多指教!

 

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值