人工智能|预训练大模型——全球医疗大模型

一、国外医疗大模型

1、谷歌医疗大模型(Med-PaLM)

谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,根据其研究结果,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。

2、BioMedLM(PubMedGPT)

斯坦福基础模型研究中心(CRFM)和MosaicML联合开发了BioMedLM (PubMedGPT)模型,一种经训练可以解释生物医学语言的大型语言模型。CRFM使用MosaicML平台,根据PubMed的生物医学数据训练了2.7B 参数 GPT,在美国医疗执照考试 (USMLE)的医疗问答文本上取得了最先进的结果。在Pile数据集的 PubMed Abstracts 和 PubMed Central 部分上训练了 BioMedLM。该数据集包含约 50B 个标记,涵盖由美国国立卫生研究院策划的生物医学文献中的 1600 万篇摘要和 500 万篇全文文章。

3、GatorTron

GatorTron是由佛罗里达大学开发的电子病历(EHR)大数据模型,从头开始开发了一个LLM(没有基于其他预训练模型),使用89亿个参数和来自电子健康记录的>900亿字的文本来改进5个临床自然语言处理任务,包括医疗问题回答和医疗关系提取。

虽然比Med-PaLM的模型小得多,但这是第一个由学术医疗机构开发的医学基础模型,而不是像谷歌、OpenAI或Meta这样的大型科技公司。

这个数据来源是从UF Health综合数据存储库(IDR)——UF Health系统的企业数据仓库中提取了来自247万名患者的总计2.9亿份临床笔记。这些笔记是在2011-2021年创建的,来自超过126个临床科室和约5千万次接触,涵盖了医疗环境,包括但不限于住院病人、门诊病人和急诊部门的访问。经过预处理和去识别,该语料库包括超过820亿个医疗词汇。

4、CLINICAL QA BIOGPT (JSL)

John Snow Labs 长期以来一直是自然语言处理(NLP)工具和算法在医疗用例中的领先者。除了数据标记和提取之外,他们还拥有用于去标识化临床笔记和医疗数据的工具。JSL 最近宣布了一种基于 BioGPT(一个较旧、较小的医疗信息训练的大型语言模型)的LLM(BIOGPT (JSL) ),通过基于JSL数据和NLP工具的微调。该模型在患者去标识化、实体解析(如提取操作代码和医疗术语)以及临床摘要的准确性等领域可能表现更好,甚至可能优于ChatGPT。

https://nlp.johnsnowlabs.com/2023/04/12/biogpt_chat_jsl_en.html

5、ChatDoctor

ChatDoctor:使用医学领域知识在大型语言模型LLaMA上进行微调的医疗大模型。

收集了 700 多种疾病及其对应的症状 + 所需医学检查 + 推荐的药物, 以此生成了 5k 次医患对话数据集。此外, 还从在线问答医疗咨询网站获得了 200k 条真实的医患对话数据集。

使用 205k 条医患对话数据集对 LLM 进行微调, 生成的模型在理解患者需求, 提供合理建议并在各种医疗相关领域提供帮助方面能力显著提高。

此外,为了提高模型的可信度,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

博士僧小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值