过拟合的问题

2018/10/25
在用决策树进行分类的时候,比较疑惑,用哪些指标可以检测过拟合,或者说应该用什么样的步骤来进行。
在google了问题之后,点进去的几个网页都没有很好的说明。

过拟合的最大的指标就是,如果在训练集上的检测指标非常高,但是在测试集上的效果不好,这就说明产生了过拟合。
而且从数据的角度来看,有两个原因引起过拟合,第一、数据中的噪声;第二、数据太少。
(转载自:https://www.quora.com/What-are-the-techniques-to-find-overfitting-in-a-decision-tree-algorithm
不过,从这个角度来看,他就没有一个指标来显示这个事情了。不如前面的那个说明好。

虽然是这样说,最初我比较疑惑的问题就是,
因为我是用sklearn上的交叉验证做的实验,那么我看到了一个测试集上的指标之后,我就不知道怎么样把上面说的话给关联起来。


(刚想起来,我的代码里面不是k折交叉验证,只是拿了一个分开的数据集)
我后来为了去验证,将提炼出来的模型在训练集上进行了测试,评分非常高,为1,这时的分类算法是决策树。
但是,后面在测试集上得到的结果不是很理想。
(我不知道是不是因为我数据集的问题,当然如果是不知道数据集内部的原理,其实这个东西就比较尴尬了。)


我感觉,如果按照他们的说法, 我上面的这个步骤,应该是显示出来我这个模型已经过拟合了。
https://datascience.stackexchange.com/questions/26640/how-to-check-for-overfitting-with-svm-and-iris-data
看这个,这个里面的几句话非常好。

On larger real-world datasets you are likely to see your test error be higher than your training error, with cross-validation providing a lower accuracy than the raw number

转载自:https://www.researchgate.net/post/What_is_over_fitting_in_decision_tree
这个是从决策树的角度出发,去看决策树的结构来决定是否过拟合。

其实如此说来,我真的应该把这个评价模型的指标给好好看一看。


2019/02/28
过拟合的问题说简单简单,每次书上举得例子就是那么个样子。但是从多个角度来看,过拟合关联的因素有很多。有数据量大小、参数个数等,甚至还有一些其他的,但是这个内容应该怎么记录是一个问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值