应用机器学习过程中的建议
本文源自在Coursera平台学习machine learning 过程中的一些记录
在评价一个机器学习模型时,当你发现你的模型在测试集上的预测性能非常差时,通常有一下解决办法:
- 增加训练集样本量;
- 减少输入特征变量数目;
- 增加额外的特征变量;
- 增加多项式特征变量;
- 增大或降低lambda值;
要评价一个模型,一般可以采用70%的数据量做训练集,另外30%的数据量用作测试集,评价模型的泛化性能。
模型选择与样本集设置
怎样进行模型选择呢?
首先,针对不同的参数集分别训练获得初步模型,然后分别用这些模型预测测试集样本,测试集误差最小的模型,即判断为最优模型。
一般在评价模型时,需要将样本集划分为训练集、验证集、测试集的组合,其对应的比例分别为6:2:2。
为什么要划分成三组数据集呢?虽然模型训练过程中都未用到过验证集和测试集,但是模型