大连理工发布“太一”：基于多任务指令微调的中英双语生物医学大模型

最新推荐文章于 2024-07-08 22:27:21 发布

PaperWeekly

最新推荐文章于 2024-07-08 22:27:21 发布

阅读量782

点赞数 10

文章标签： chatgpt 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134635807

版权

©PaperWeekly 原创 · 作者 | 大连理工大学信息检索研究室

单位 | 大连理工大学

随着 ChatGPT 的问世和后续 GPT-4 的发布，大模型强大的语言理解能力和文本生成能力引起了大家的极大关注，并引发了新一轮大语 a 言模型（Large Language Models，LLMs）的开发浪潮。

近期大连理工大学计算机学院信息检索研究室研发了中英双语生物医学大模型——太一（Taiyi），并于近日发布了预印版论文。“太一”名字的由来主要有三层含义，也体现了该模型的三个主要特点：

1. 与“太医”同音，即面向生物医学领域的大模型；

2. “太”为“大”字上多一点，即方法在通用大模型基座上进行指令微调；

3. “太一”在汉语中也有浑然为一的含义，目标使一个模型具备多语多任务上的能力。

本文希望通过分享“太一”大模型训练中的一些经验和资源信息，和大家一同深入探索生物医学垂直领域大模型训练方法，促进大语言模型在健康医疗领域的应用发展。

论文题目：

Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks

论文链接：

https://arxiv.org/abs/2311.11608

项目链接：

https://github.com/DUTIR-BioNLP/Taiyi-LLM

引言

自去年 ChatGPT 问世以来，大语言模型凭借在多项自然语言处理（NLP）任务上取得的惊人表现迅速进入了广大人们的视野。研究者们也开始探索和开发基于大模型的人工智能系统，希望应用于各行各业，例如法律、教育、金融等。

在医疗健康领域，大语言模型对于处理大规模和复杂的生物医学文本数据，以及提供更加个性化的医疗健康咨询服务等应用具有巨大潜力，有望促进健康医疗信息化和智能化的快速发展。但是，与通用新闻领域的文本不同，生物医学文本具有大量复杂的术语、歧义的缩写、更复杂的语法和不常见的词汇等特性。

由于这些领域特性，给在通用数据上训练的大语言模型带来了挑战。由于领域知识受限，直接将通用模型应用到生物医学文本上，会出现模型性能下降、预测结果可靠性差等问题。因此，研究者们针对领域特点，展开了面向生物医学领域的大语言模型研究，表 1 列举了一些现存的生物医学大模型。

▲ 表1 现存生物医学大模型举例

目前，大多数开源生物医学大模型主要使用单语（如英文或中文）的问答和对话数据进行指令微调，重点关注提升模

最低0.47元/天解锁文章

关注

10
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
大连理工发布“太一”：基于多任务指令微调的中英双语生物医学大模型

©PaperWeekly 原创 ·作者 |大连理工大学信息检索研究室单位 |大连理工大学随着 ChatGPT 的问世和后续 GPT-4 的发布，大模型强大的语言理解能力和文本生成能力引起了大家的极大关注，并引发了新一轮大语 a 言模型（Large Language Models，LLMs）的开发浪潮。近期大连理工大学计算机学院信息检索研究室研发了中英双语生物医学大模型——太一（Taiyi），...
复制链接

扫一扫

PaperWeekly CSDN认证博客专家 CSDN认证企业博客

码龄7年

1437: 原创

4971: 周排名

158: 总排名

549万+: 访问

: 等级

4万+: 积分

8564: 粉丝

6485: 获赞

1001: 评论

2万+: 收藏

私信

关注

热门文章

最新评论

ACL 2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探
眕眕: 实测效果：问：直接汇入东海的河流有哪些答：东海沿岸有几个河流直接注入东海。其中一些主要河流包括: 1.松江:位于上海市，长江的主要支流，在上海市区附近汇入东海。 2.长江:世界上第三长的河流，也是长江的主要支流。它发源于中国西南地区，最终在上海市附近汇入东海。 3.淮河:位于中国东部，淮河在江苏省的淮安市附近汇入东海。 4.淮阳河:位于中国东部，淮阳河在江苏省的淮安市附近汇入东海。 5.淮河:位于中国东部，淮河在江苏省的淮安市附近汇入东海。 6.珠江:珠江是中国的第二长河流，最终在广东省的香港特别行政区附近汇入南海，包括东海。 7.黑龙江:黑龙江是中国最长的河流，最终在黑龙江省的哈尔市附近汇入东海。这些河流在东海沿岸地区起着重要的水循环作用，并对当地的水文和生态平衡产生影响。
科研实习 | 北京大学杨仝教授课题组招聘大模型/机器学习方向暑期科研实习生...
百丽宫顶真: 现在还缺人吗
ICLR 2024 | 根据压缩比率控制生成样本难度，NUS等提出首个无损数据集蒸馏方法...
苏慕阳: 跑过了，不能做到无损啊
生成扩散模型漫谈：一般框架之SDE篇
星星超幸运: 好些关键字符缺失
让人惊叹的Johnson-Lindenstrauss引理：理论篇
wf12030: 神人惊呆了，佩服这个和数值代数有关系么？链接是博主的也是？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。