背景
在华为全联接大会2024(HUAWEI CONNECT 2024)期间,昇思MindSpore专题论坛顺利举办。该论坛聚焦大模型与科学智能创新成果,汇聚近百位国内外AI领域领军学者、技术领袖及开发者演讲、参会,共同分享AI领域发展趋势与产业机遇。
在昇思MindSpore专题论坛中,中国科学院上海药物所研究员,质子展开联合创始人郑明月研究员分享了《基于昇思MindSpore打造药物学大模型赋能新药研发》报告。他表示,人工智能的快速发展使得我们可以将新药研发的部分环节进行数字化,从而大幅提升新药研发的效率。郑明月团队与华为昇思团队、华为中央研究院先进计算与存储实验室共同开发药灵大模型,在药物领域知识提取、合成规划和多模态交叉下游任务等可以实现工业级可用,为生物医药领域带来了巨大的助力。
药灵大模型SciMind模型架构的概览见下图。A,SciMind接受四种模态的输入,针对不同的模态用不同的Token来表示它们的序列;B,在原始模型Llama-2-7B的基础上,根据前馈层的权重使用受限K-均值聚类分成16名专家,在前馈层之前添加了一个路由层,使用领域数据对路由层进行预训练或微调,以实现针对不同Token选择不同的专家。
01
专利数据解析服务
SciMind能够高效提取专利文件中的分子和生物数据,包括复杂的化学结构、多肽序列、抗原表位、抗体序列以及生物活性等信息。与传统人工解析相比,SciMind将处理时间从2天缩短至1小时,同时将准确率提高了20%以上。
02
国产化学信息数据库
借助SciMind的信息提取能力自主研发化学信息数据库,以其高精度和高覆盖率,有望实现国产替代,为国内用户提供更加可靠的数据支持。
03
多模态交互应用
SciMind的新兴应用能够根据分子的结构特征及性质描述生成符合要求的分子结构,或者在给定分子结构的情况下给出结构及性质的描述,展现了强大的多模态交互能力。
04
化学合成规划
SciMind在化学合成规划方面表现出高准确率和可控性,通过指定断键位置作为模型的“提示词”,更好地融入药化专家的经验和知识,优化合成路径。
这些应用场景展示了SciMind在化学和生物信息处理领域的强大实力和广泛应用前景。针对通用模型在药学领域应用准确性和实用性不足的问题,SciMind利用更多的领域数据和独创的分子编辑语言提升了准确性和实用性,并且在领域知识提取和合成规划等下游应用场景达到当前最优的表现,实现工业级可用。此前SciMind在ACL 2024 Language and Molecules Workshop举办的分子-语言描述多模态大模型生成竞赛中取得第一名的成绩。