我使用渐变增强决策树作为分类器实现了一个模型,我绘制了训练和测试集的学习曲线,以决定下一步做什么以改进我的模型 . 结果如图:
(Y轴是精度(正确预测的百分比),而x轴是我用来训练模型的样本数 . )
我知道训练和测试分数之间的差距可能是由于高差异(过度拟合) . 但是图像还显示测试分数(绿线)增加很少,而样本数量从2000增加到3000.测试分数的曲线变得平缓 . 即使有更多的样本,模型也没有变得更好 .
我的理解是,平坦的学习曲线通常表示高偏差(欠拟合) . 在这个模型中是否可能发生过度拟合和过度拟合?或者平曲线有另一种解释吗?
任何帮助,将不胜感激 . 提前致谢 .
=====================================
我使用的代码如下 . 基本我使用与sklearn中的示例相同的代码document
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,
n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5)):
p