LLM在生物信息学中表现如何？Bio-benchmark给出了30项任务的全面评估

大模型老炮

于 2025-03-27 18:42:31 发布

阅读量852

点赞数 23

文章标签：人工智能 Agent Manus AI产品经理大模型 LLM 程序员

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85375151/article/details/146568164

版权

随着计算生物学的进步，传统方法在解决蛋白质折叠、功能注释及新生物分子设计等问题时逐渐显露局限性，例如计算复杂度高或泛化能力不足。而大语言模型（LLMs）凭借其强大的语言理解与生成能力，为这些问题提供了新的解决方案。它们不仅能处理电子健康记录（EHR）或中医药问答等文本数据，还能分析蛋白质和RNA等生物序列，表现出比传统方法更高的准确性和适应性。

然而，如何系统性地评估LLMs在生物信息学任务中的表现，一直是一个难题。现有评估体系存在显著不足，包括测试数据与训练数据重叠、缺乏统一的答案提取工具以及任务覆盖范围有限等问题。这些缺陷限制了对LLMs在生物信息学中真实能力的全面衡量。因此，亟需一个标准化、覆盖广泛任务的评估框架。

为此，来自香港中文大学、香港大学及上海人工智能实验室的研究团队提出了Bio-benchmark——一个针对生物信息学NLP任务的全面评估框架。

Bio-benchmark框架

Bio-benchmark是一个基于提示（prompting）的评估框架，旨在通过零样本（zero-shot）和少样本（few-shot）设置，测试LLMs在生物信息学任务中的内在能力，而无需模型微调。该框架涵盖7大领域共30项任务，包括蛋白质设计、RNA结构预测、药物相互作用分析、电子病历推理及中医药智能问答等。

数据集设计

Bio-benchmark的数据集来源于多个权威数据库，覆盖以下子领域：

蛋白质：基于蛋白质数据库（PDB），包括二级结构预测、家族序列设计和逆折叠设计等任务。
RNA：数据来自bpRNA和RNA-Central，涵盖功能预测、二级结构预测及逆折叠设计。
药物：涉及抗生素设计、药物-药物相互作用预测及药物-靶标相互作用预测。
电子健康记录（EHR）：基于MIMIC数据库，包含诊断预测和治疗计划制定。
医学问答：数据来源于HeadQA、MedMCQA等医学考试题库。
中医药问答：基于中医药经典文献和临床案例，测试模型对中医药知识的理解。

这一多样化的数据集设计确保了评估的全面性与代表性。

评估方法与BioFinder工具

为准确评估LLMs的表现，研究团队开发了BioFinder，一种专门用于从模型自由格式输出中提取答案的工具。传统方法（如正则表达式）在处理复杂输出时的准确率仅为72%，而BioFinder通过结合正则表达式与自然语言推理（NLI）技术，显著提升了性能。其主要优势包括：

生物序列提取：准确率达93.5%，较传统方法提升约30%。
医学NLI任务：准确率89.8%，超越GPT-4约30%。
长文本评估：支持无参考答案的质量评估。

以下是BioFinder与传统方法的性能对比：

方法	多选题	文本匹配	数值提取	生物序列
正则表达式	77.5%	74.8%	68.1%	68.0%
GPT-4	65.8%	80.5%	67.0%	38.5%
BioFinder	95.5%	94.3%	95.5%	93.5%

评估分为两类：客观评估（如选择题，使用BioFinder提取答案并与标准答案比对）和主观评估（如长文本生成，通过相似性、专业知识及逻辑一致性判断质量）。

实验结果与分析

研究团队对六种主流LLMs（GPT-4o, Qwen 2.5-72b, Llama-3.1-70b, Mistral-large-2, Yi1.5-34b, InternLM-2.5-20b）进行了zero-shot和few-shot测试，结果如下：

蛋白质任务

物种预测：Mistral-large-2在few-shot设置下以82%准确率领先；少样本提示显著提升表现，如Yi-1.5-34b准确率提升6倍，InternLM-2.5-20b提升近20倍。
结构预测：Llama-3.1在few-shot下恢复率达34%，表现最佳。

RNA任务

功能预测：Llama-3.1在few-shot下准确率达89%，少样本效果显著。
二级结构预测：所有模型表现较差，准确率普遍较低，显示任务复杂性。
sgRNA效率预测：InternLM在zero-shot下表现意外优于few-shot。

药物任务

抗生素设计：Mistral-large-2在few-shot下准确率达91%，表现突出。
药物-靶标预测：InternLM在few-shot下达73%。
药物-药物相互作用：最佳准确率仅47%，表明仍有改进空间。

电子健康记录（EHR）任务

诊断预测：GPT-4o在AgentClinic任务中准确率达82.24%，表现优异。

医学问答任务

多选题：在HeadQA、MedMCQA等数据集上，平均准确率超70%，但少样本提示提升有限，甚至偶有下降。

中医药问答任务

表现提升：少样本提示显著改善结果，如TCMSD任务中准确率从31.7%升至65.3%。

提示工程的最佳实践

基于百万级测试数据，研究总结出三条提示工程经验：

分字符输入：将连续生物序列改为换行分隔，准确率提升3倍。
动态few-shot：示例数与任务复杂度正相关，3-10个为最佳范围。
领域知识注入：在提示中加入专业术语解释，错误率降低41%。

结论与展望

Bio-benchmark表明，LLMs在蛋白质设计、药物开发及中医药问答等任务中表现出色，尤其在少样本设置下潜力显著。然而，RNA二级结构预测及药物-药物相互作用等复杂任务仍具挑战性。BioFinder的引入为答案提取提供了高效工具，未来可进一步优化提示策略或探索微调方案。

局限性

尽管Bio-benchmark覆盖广泛，但其评估限于zero-shot和few-shot场景，未涉及微调潜力。此外，任务虽多样，仍可能无法全面代表生物信息学所有挑战。BioFinder的性能也受输入数据质量影响，在复杂输出中可能面临限制。

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。