目标:跑通baseline,体验NLP模型解决问题的流程,基本了解赛题要求,理解赛题场景
数据分类:
在机器学习和深度学习项目中,数据集通常被划分为三个部分:训练集(Training Set)、开发集(Development Set,也常被称为验证集,Validation Set)和测试集(Test Set)。这种划分的主要目的是为了评估模型的性能并防止过拟合,确保模型具有良好的泛化能力。下面是这三个数据集的具体作用:
-
训练集(Training Set):
-
作用:训练集用于训练模型,使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数,以最小化预测误差。
-
目标:让模型在训练数据上尽可能地拟合好,学习到数据的内在规律。
-
-
开发集/验证集(Development/Validation Set):
-
作用:开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据,用于评估模型在未见过的数据上的表现。
-
目标:通过在开发集上的性能评估,选择最佳的模型配置,避免模型在训练集上过度拟合,确保模型的泛化能力。
-
-
测试集(Test Set):
-
作用:测试集用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。
-
目标:提供一个公正、无偏见的性能估计,反映模型在未知数据上的泛化能力。
-
评估指标:
对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标 BLUE-4 进行评价,具体工具使用 sacrebleu开源版本。