大模型微调典型评价指标简记

桂花很香,旭很美

已于 2024-03-30 11:55:46 修改

阅读量847

点赞数 6

分类专栏： NLP 文章标签： nlp

于 2024-03-30 11:55:04 首次发布

本文链接：https://blog.csdn.net/weixin_40959890/article/details/137169590

版权

96 篇文章 7 订阅

订阅专栏

在大模型微调过程中，评价指标的设定是为了精确衡量模型在特定任务上的表现，以便判断微调的效果和指导进一步的优化。选择合适的评价指标至关重要，因为它们直接影响到对模型性能的理解、比较和决策。

确定微调任务的具体类型，如分类、回归、序列标注、问答、生成任务等。每种任务类型有其适用的一组或几组核心评价指标。

分类任务：
- 准确率（Accuracy）
- 精确率（Precision）
- 召回率（Recall）
- F1分数（F1 Score）
- AUC-ROC曲线（适用于不平衡类别问题）
回归任务：
- 平均绝对误差（MAE）
- 平均平方误差（MSE）
- 均方根误差（RMSE）
- R²分数（R-squared）
序列标注任务：
- 标签准确率（Token-level Accuracy）
- F1分数（按标签类别计算）
- 微平均/宏平均F1（Micro/Macro F1）
问答任务：
- BLEU（用于衡量生成答案与参考答案的相似度）
- ROUGE（评估摘要质量和召回率）
- METEOR（结合词匹配与语义匹配的评估指标）
- EM（Exact Match，完全匹配率）
生成任务：
- 除上述BLEU、ROUGE、METEOR外，还有：
- 自然度评分（Human Evaluation）
- Perplexity（模型困惑度，反映模型对数据的预测能力）

关注