1.通过Bootstrap采样获得的训练集可能存在重复的样本。T
2.请你谈谈对过拟合和欠拟合的理解,以及如何缓解过拟合和欠拟合问题
我自己的理解:
过拟合是训练的模型在训练集上测试准确率很高,但是在测试集上准确率很低的情况;
欠拟合是因为训练模型太简单或训练轮次过少导致的训练集和测试集准确率都低。
形象理解:书上p24
对于欠拟合缓解:
减少正则项;
增加训练轮数;
决策树增加分支;
神经网络增加隐层个数或深度。
对于过拟合缓解:
添加正则项;
降低模型的复杂度;
增加训练集的数据,使特征更加全面;
如果很难再获取到更多训练数据,那么可以对已有训练数据进行合理扩充,增加数据的多样性;
对于决策树来说有预剪枝和后剪枝来预防过拟合;
早停策略:如果训练集准确率持续升高而测试集准确率持续降低,则停止。