Hi, 你好。我是茶桁。
上一节课,咱们讲解了『拟合』,了解了什么是过拟合,什么是欠拟合。也说过,如果大家以后在工作中做的就是机器学习的相关事情,那么欠拟合和过拟合就会一直陪伴着你,这两者是相互冲突的。
现在,让我们一起来思考一个问题:overfitting
,过拟合产生的原因是什么?
如果这是在模型层面的话,参数过多还是过少?如果从数据层面来看,是过多还是过少呢?
好,我们来揭晓答案。如果模型层面思考,那是就是参数过多。如果从数据层面来看, 那是数据过少。
现在我们需要理解一件事情,这两个事情其实是一回事,数据量多和模型复杂其实是一回事。它背后的原因就是因为任何一个f(x)如果有很多的参数,拟合的时候随着这个参数数量越多,那么我们所需要的训练数据集也要增多。也就是说当模型非常复杂,参数特别多,只要数据量特别大,那就不算多。就说现有的数据量对于参数不够,训练力度不够。
这就好比是有一个天才的孩子,脑子