MedBench迭代升级，找出最合格的“医学生”-CSDN博客

本文链接：https://blog.csdn.net/OpenCompass/article/details/140794199

MedBench 全面升级

MedBench医疗大模型评测平台进行了全面升级，丰富了评测参评方式，新增API评测，同时优化了开放域问答（Open-domain question answer）的评估指标，通过医学专家标注答题点，进一步确保了评测结果的公平性和专业性。此外，平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级，致力于为医疗大模型评测构建更健全的社区环境，并提供更为丰富、真实的实践场景。

立即参与MedBench评测，官网链接：https://medbench.opencompass.org.cn/home

MedBench 升级优势

MedBench自2024年1月正式上线以来，吸引了广泛的专业关注。迄今为止，共有81位参与者参与了评测，其中涵盖了若干组织/团队和个人参赛者。组织/团队数量为20个，个人参赛者61名，参与评测的模型共计113个。表现优异的组织/团队在五个评测维度上展现出了不同的模型能力，具体表现如下图所示。

在当前的大模型评测体系中，公平性、专业性与准确性是参与者最为关心的内容。然而，对于开放域问答任务中常见的评估指标，如BLEU和ROUGE等，尽管它们在一定程度上能够反映模型的性能，但这些指标只关注n-gram的字面匹配，对形态丰富的语言处理能力有限，且往往无法妥善评估同义词或相似表达下的模型表现。鉴于医疗环境的动态性和数据时效性的重要性，为了保障模型在应对不断变化的医疗场景时能够持续提供高质量服务，定期更新高质量的医学数据变得尤为关键。因此，当前垂类模型评测应聚焦于实用参评方式、科学评测方法、专业数据集以及系统功能的全面增强。

丰富的参评方式

MedBench 评测榜单：接受来自企业，高校，开源社区，各类研究团队或者个人进行API提交申请，MedBench团队通过API进行测试集预测，并将组织/团队同意公开的评测结果同步到MedBench评测榜单中。
MedBench 自测榜单：接受各类评测参与者通过模型答案上传的方式，从MedBench平台下载数据集，在本地进行推理后上传模型预测结果进行自动评测，经MedBench团队审核评测结果后，参与方同意公开的评测结果将同步到MedBench自测榜单中。此榜单为研发者提供便捷的自测与研发大模型的参考。

科学的评测指标和计分方式

为了更好地处理形态丰富的语言和考虑同义词或相似表达的结果，提高在开放域问答中的评估准确性，本次评测将采用基于要点信息计算Macro-Recall作为评估指标，消除关键信息以外的信息对于评测结果的影响，包括语言风格、语言形态等。

MedBench对各任务得分进行了统一的尺度放缩从而平衡各子任务的难度。通过线性变换将各数据集上的得分放缩到确定的范围，确保每个任务都能得到公平的评价。此外，为了平衡极端分数的影响，更精确地衡量模型的整体表现，还采取了基于各数据集得分的调和平均数作为评价标准。

专业的评测数据集

MedBench 评测榜单与自测榜单分别拥有独立的测试数据，本次更新了评测榜单中20个数据集的评测数据，数据集所属的医学任务和题型均不变。此外，在优化开放域问答的评测指标过程中，为确保基于要点信息计算的Macro-Recall评估指标的有效性，我们特地邀请了具备专业资质的医学专家，对所有开放域问答题目的答案进行精细的答题点标注，从而确保评估结果的准确性和专业性。

人性化的系统功能

为了方便用户查看每次提交的状态和评测结果，新增了用户历史提交记录功能和MedBench历史评测榜单。对于选择公开评测结果的模型，同时新增了审核机制，确保模型信息和团队信息的真实性与合规性。此外，平台文档针对本次升级进行了更新，提供了详尽的描述和指南，帮助使用者更全面地了解和使用MedBench。

MedBench评测平台的这次迭代升级，将为广大医疗大模型开发者提供更科学、公平且严谨的评测体系。现诚邀每一位医疗科技的探索者加入评测，赋能医疗大模型持续优化，朝着更高效、更精准、更安全的方向迈进。

MedBench 简介回顾

MedBench为上海人工智能实验室和上海市数字医学创新中心联合多家机构推出，致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。平台基于医学权威标准，不断更新维护高质量的医学数据集，全方位多维度量化模型在各个医学维度的能力。MedBench提出了五大评测维度：医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理。

基于五大维度评测框架，MedBench的专业评测数据集融合了海量医学知识库和医院医学专家的经验，其中包含8个公开数据集和12个自建数据集，约30万道中文医疗专业测评题目，囊括医学考试题库、医学问答、患者服务、医学问诊、病例分析以及病历生成等医学任务。