要使用 HealthBench 的标准对你蒸馏后的医疗模型进行测评和打分,你需要按照 HealthBench 提供的基准测试框架和任务数据集,来评估你模型在多个医疗NLP任务上的性能。下面是一个详细的步骤指南:
✅ HealthBench简介(简要了解)
HealthBench 是一个用于评估**医疗大语言模型(MedLLMs)**的标准基准,涵盖6大任务:
- Medical Question Answering (QA)
- Summarization
- Medical Reasoning
- Radiology Report Generation
- Medical Dialogue
- Medical Fact Verification
每个任务都有明确的子任务和评价指标。
🧪 测评步骤概览
Step 1: Clone HealthBench 仓库
GitHub 地址:
👉