©PaperWeekly 原创 · 作者 | 大连理工大学信息检索研究室
单位 | 大连理工大学
随着 ChatGPT 的问世和后续 GPT-4 的发布,大模型强大的语言理解能力和文本生成能力引起了大家的极大关注,并引发了新一轮大语 a 言模型(Large Language Models,LLMs)的开发浪潮。
近期大连理工大学计算机学院信息检索研究室研发了中英双语生物医学大模型——太一(Taiyi),并于近日发布了预印版论文。“太一”名字的由来主要有三层含义,也体现了该模型的三个主要特点:
1. 与“太医”同音,即面向生物医学领域的大模型;
2. “太”为“大”字上多一点,即方法在通用大模型基座上进行指令微调;
3. “太一”在汉语中也有浑然为一的含义,目标使一个模型具备多语多任务上的能力。
本文希望通过分享“太一”大模型训练中的一些经验和资源信息,和大家一同深入探索生物医学垂直领域大模型训练方法,促进大语言模型在健康医疗领域的应用发展。
论文题目:
Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks
论文链接:
https://arxiv.org/abs/2311.11608
项目链接:
https://github.com/DUTIR-BioNLP/Taiyi-LLM
引言
自去年 ChatGPT 问世以来,大语言模型凭借在多项自然语言处理(NLP)任务上取得的惊人表现迅速进入了广大人们的视野。研究者们也开始探索和开发基于大模型的人工智能系统,希望应用于各行各业,例如法律、教育、金融等。
在医疗健康领域,大语言模型对于处理大规模和复杂的生物医学文本数据,以及提供更加个性化的医疗健康咨询服务等应用具有巨大潜力,有望促进健康医疗信息化和智能化的快速发展。但是,与通用新闻领域的文本不同,生物医学文本具有大量复杂的术语、歧义的缩写、更复杂的语法和不常见的词汇等特性。
由于这些领域特性,给在通用数据上训练的大语言模型带来了挑战。由于领域知识受限,直接将通用模型应用到生物医学文本上,会出现模型性能下降、预测结果可靠性差等问题。因此,研究者们针对领域特点,展开了面向生物医学领域的大语言模型研究,表 1 列举了一些现存的生物医学大模型。
▲ 表1 现存生物医学大模型举例
目前,大多数开源生物医学大模型主要使用单语(如英文或中文)的问答和对话数据进行指令微调,重点关注提升模