在大模型微调过程中,评价指标的设定是为了精确衡量模型在特定任务上的表现,以便判断微调的效果和指导进一步的优化。选择合适的评价指标至关重要,因为它们直接影响到对模型性能的理解、比较和决策。
确定微调任务的具体类型,如分类、回归、序列标注、问答、生成任务等。每种任务类型有其适用的一组或几组核心评价指标。
-
分类任务:
- 准确率(Accuracy)
- 精确率(Precision)
- 召回率(Recall)
- F1分数(F1 Score)
- AUC-ROC曲线(适用于不平衡类别问题)
-
回归任务:
- 平均绝对误差(MAE)
- 平均平方误差(MSE)
- 均方根误差(RMSE)
- R²分数(R-squared)
-
序列标注任务:
- 标签准确率(Token-level Accuracy)
- F1分数(按标签类别计算)
- 微平均/宏平均F1(Micro/Macro F1)
-
问答任务:
- BLEU(用于衡量生成答案与参考答案的相似度)
- ROUGE(评估摘要质量和召回率)
- METEOR(结合词匹配与语义匹配的评估指标)
- EM(Exact Match,完全匹配率)
-
生成任务:
- 除上述BLEU、ROUGE、METEOR外,还有:
- 自然度评分(Human Evaluation)
- Perplexity(模型困惑度,反映模型对数据的预测能力)