HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:HuatuoGPT-o1 能够进行复杂的医学推理,识别错误并优化答案。
  2. 技术:采用两阶段训练方法,结合验证器反馈和强化学习提升模型性能。
  3. 应用:广泛应用于医学诊断、治疗方案制定、医学教育等领域。

正文(附运行示例)

HuatuoGPT-o1 是什么

公众号: 蚝油菜花 - HuatuoGPT-o1

HuatuoGPT-o1 是香港中文大学(深圳)和深圳大数据研究院联合推出的医学高级推理大模型。该模型通过复杂的推理能力提升解决医学问题的性能,采用两阶段训练方法:首先,使用医学验证器引导搜索正确的推理路径来微调模型;其次,应用基于验证器反馈的强化学习进一步增强模型的复杂推理能力。

HuatuoGPT-o1 能够生成长链的思考过程,识别错误,并尝试不同的策略精细化答案。实验结果表明,模型在多个医学基准测试中优于通用和特定于医学的基线模型,且从复杂推理和强化学习中显著受益。

HuatuoGPT-o1 的主要功能

  1. 复杂推理:HuatuoGPT-o1 能进行复杂的推理,解决医学领域的复杂问题。
  2. 错误识别与修正:模型能识别其答案中的错误,尝试不同的策略修正和优化答案。
  3. 长链思考:HuatuoGPT-o1 能产生长的思考链(Chain-of-Thought, CoT),展示推理过程。
  4. 自我改进:基于强化学习(Reinforcement Learning, RL),模型能自我改进,进一步提升复杂推理能力。

HuatuoGPT-o1 的技术原理

  1. 两阶段训练方法
    • 第一阶段:学习复杂推理:基于策略搜索引导下的验证器反馈(正确或错误)构建复杂推理轨迹,微调LLM。
    • 第二阶段:通过RL增强复杂推理:在第一阶段获得复杂推理技能后,用基于验证器的稀疏奖励进一步优化模型。
  2. 可验证医学问题:构建40K个可验证的医学问题,问题具有客观的、唯一的正确答案,支持模型验证解决方案的正确性。
  3. 医学验证器:用GPT-4o作为验证器,检查模型生成的答案(CoT和结果)是否与真实答案相符,提供二进制反馈。
  4. 强化学习(RL):用Proximal Policy Optimization(PPO)算法进行RL训练,基于验证器提供的奖励指导模型自我改进,优化复杂推理路径。
  5. 链式思考(CoT):模型生成的CoT包括“内部思考”、“最终结论”和“验证”三个部分,模拟人类解决问题的思维方式。

如何运行 HuatuoGPT-o1

1. 安装依赖

首先,确保你已经安装了 transformers 库:

pip install transformers
2. 加载模型和分词器
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B")
3. 生成推理结果
input_text = "How to stop a cough?"
messages = [{"role": "user", "content": input_text}]

inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值