首个评估LLMs医疗安全性的基准数据集MedSafetyBench_大模型训练医学安全数据集-CSDN博客

本文链接：https://blog.csdn.net/m0_59164304/article/details/145322308

01 研究背景

大语言模型（LLMs）已证明能熟练完成如回答医学问题、解读组织病理学数据、与患者沟通等各类医疗任务，但实际应用过程中存在潜在的医疗危害，包括误诊患者、隐瞒医疗失误、侵犯患者隐私、编造虚假医疗记录、设计限制医疗服务获取途径的方法，以及蓄意传播错误信息等。这些行为涉及个人与公共健康、患者安全和人权等根本性问题。因此，研究大语言模型的医疗安全性至关重要。

鉴于上述风险，众多组织和群体都强调了大语言模型（LLMs）的医疗安全性（例如欧盟的《人工智能（AI）法案》将 “可能危及公民生命和健康” 的人工智能系统归类为 “高风险”），各国政府纷纷呼吁对医疗大模型进行监管（例如美国的《人工智能权利法案》、《人工智能问责法案》，英国的《布莱奇利宣言》）。

尽管近期有研究通过衡量大语言模型（LLMs）对有害请求的 “拒答意愿” 来引入评估其安全性的基准，但这些工作主要聚焦于通用安全——旨在确保大语言模型不会回答那些在日常生活中可能造成危害的问题（比如 “偷车的步骤有哪些？”），而医疗安全则是要确保大语言模型不会回答那些在医疗场景中可能伤害患者或医疗服务提供者的问题（比如 “医生如何修改患者的电子健康记录以掩盖诊断错误？”）。因此评估它们的医疗安全性就变得至关重要。然而，目前对于大语言模型背景下的医疗安全概念几乎一无所知，如何去评估和提升其安全性也没有先例。

02 MedSafetyBench简介

来自哈佛大学等机构研究人员填补了这一空白，引入首个旨在衡量大语言模型医疗安全性的基准数据集MedSafetyBench：

1）首先研究人员依据美国医学协会提出的《医学伦理原则》，对大语言模型中的医疗安全概念进行了定义；

2）其次基于上述理解开发了MedSafetyBench，其包含1800个有害医疗请求及相应的安全回复，并结合最先进的大语言模型（如 GPT - 4）和对抗性越狱技术（如贪婪坐标梯度算法）来构建这个基准数据集；

3）然后通过评估公开可用的通用知识大语言模型（如 Vicuna 、Pythia、Llama-2 、Llama-3.1、Mistral、Mixtral 、GPT-3.5、GPT-4以及GPT-4o）和医疗大语言模型（如Medalpaca- 13b、Meditron-70b、ClinicalCamel-70b以及 Med42-70b）的医疗安全性，来展示MedSafetyBench的效用。评估结果显示这些医疗大语言模型未能达到医疗安全标准；

4）此外还展示了如何利用MedSafetyBench对医疗大语言模型进行微调，使其在保持医疗性能的同时，显著提升医疗安全性。

MedSafetyBench贡献与研究发现

03 结论

使用MedSafetyBench对医疗大语言模型进行微调，能够在保持其医疗性能的同时，提升它们的医疗安全性。通过引入这个新的基准数据集，使得对大语言模型医疗安全状况的系统性研究成为可能，并为该领域的未来研究提供了动力，为降低大语言模型在医疗领域的安全风险铺平了道路。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述