模型选择:对不同的任务选择不同的方法,最终的目的是选择最优的建模方法。
模型训练:把数据集分为两部分,训练集和测试集。用训练集作为模型的训练;测试集作为评估模型的好坏。如果模型的效果不好,就需要重新更改数据、更改特征工程或者更改模型参数,来重新训练模型。在模型训练的时候,训练集会自动进行数据模型参数的修改,最终会返回最优的参数模型,这种方式成为交叉验证(将训练集分为子训练集和验证集)
模型训练尽可能多的选择不同的算法进行训练与测试,比较执行的结果,选择一个最优的算法。
模型测试:
1、分类模型的测试评估指标,分别是准确率、召回率、精确率、F值
准确率(accuracy):预测正确的样本/总样本
召回率(recall):预测正确的正例样本/样本中的正例样本
男(预) 女(预) 正例
男(真) A B A/(A+B)
女(真) C D
精确率(precision):正确的正例样本/预测为正例的样本
预测 预测正确 预测错误 召回率
80 70 10 70/80
F值:precision * recall * 2 / (precision + recall)
此外,还有ROC/AUC指标。
2、回归模型的测试评估指标,分别是:RMSE、MSE(均方差)、MAE(绝对误差)、R2
机器学习-模型训练及测试
最新推荐文章于 2024-10-12 17:26:01 发布