山东大学DrugLLM开发团队 项目实训(一)项目概述

文章介绍了DrugLLM,一个利用大语言模型进行药物分子性质分析的平台,旨在通过AI技术解决药物发现中的复杂问题。平台结合GNN、LLM等技术,提供分子预测、交互界面和多种化学任务支持,计划分阶段实施,以提升药物研发效率和理解分子结构的能力。
摘要由CSDN通过智能技术生成

1.项目介绍

1.1项目名称

DrugLLM:基于大语言模型的药物分子性质分析平台

1.2项目目标

基于大语言模型的药物分子性质分析平台,可用于研究人员进行药物相互作用预测、药物性质分析等提供支持。

1.3技术要点

GNN、LLM、adaptor、Springboot、微调、Vue

2.项目介绍

2.1项目背景

药物发现和开发过程确实是一项耗时且成本高昂的工作。通常需要数年时间和数十亿美元才能将一种药物推向市场。这一过程涉及探索和理解广阔的化学空间以及分子结构与其生物活性之间的复杂关系。传统方法通常涉及费力的迭代测试,而后期的失败率很高,这使得我们迫切需要一种能够直观理解药物化合物分子图中固有复杂数据并产生有意义见解的工具。

现如今,计算化学和化学信息学的最新进展提供了一些喘息的机会,但仍然迫切需要能够直观地理解药物化合物分子图中固有的复杂数据并产生有意义的见解的工具。

在这个背景下,我们的目标是实现一种全新的平台,能够改变我们与复杂实体交互和理解的方式。通过将药物分子转化成适合人工智能分析的形式,我们将能够动态探索化学空间,有效预测化合物性质,并为药物设计和优化提供智能建议。

但是实现这样功能具有很多困难与挑战,主要的挑战之一在于分子图的表示。与文本数据不同,文本数据是顺序的,具有良好定义的结构,分子图本质上是非顺序的,高度复杂,没有明确的起点或终点。开发一种方法将这些图转换成模型可以处理的格式是至关重要的。其次,另一个重大挑战是捕获和理解药物化合物中复杂的构效关系(SAR)。这些关系通常不是直截了当的,可能涉及分子不同部分之间微妙的相互作用。第三,要实现这样一个系统,需要大量的分子结构数据集,以及它们相关的生物活动、副作用和其他特性。考虑到这些信息的专有性质和化学领域的多样性,生成或编译这些数据集是一项艰巨的任务

我们的平台将利用先进的人工智能技术,特别是基于大语言模型的药物分子性质分析,以更直观的方式呈现复杂的药物化合物数据。通过这种转化,我们将能够从不同的角度深入了解分子结构的内在特征,并将其与大量的药物性质数据进行关联。我们将提供可视化平台,满足用户对于药物性质,因此用户输入相关分子信息,并询问有关该化合物的各种问题。我们的模型将以具有易用性的方式提供翔实的答案。

2.2技术创新

1. 药物信息领域与AI领域相结合

我们将将药物信息学和大模型进行交叉联合建模,可以克服传统生物分子表示方法的局限性,模型可以利用广泛的生物知识来进行生物分子的相关任务,从而实现对分子更细致的控制和生成。

2. 可交互页面

我们的模型将提供基于交叉建模的可交互页面,计划设计直观、简洁、易用的界面,减轻使用者的编程负担,增强使用者对该系统的接受度和使用意愿。

3. 采用多种主流的深度学习算法

我们的模型将集成多种主流算法,包括GNN、LLM、Transformer、LSTM、GRU、Attention机制等先进的深度学习处理方法。这些方法的融合将使我们的模型具备更强大的能力,能够处理文本和生物分子的复杂任务。

4.支持处理多种化学分子下游任务

我们的模型支持处理多种化学分子下游任务,包括分子性质预测,分子功能预测,靶点位点结合判别、药物相互作用等任务的完成实现。这些功能的实现将为化学领域的研究和药物开发提供有力的支持。

2.3工作内容

2.3.1功能要点

1.药物分子性质预测:基于大语言模型进行训练,通过自然语言描述生物分子,平台能够给出相关分子特性,如溶解度、毒性和生物活性等。

2. 药物分子描述:基于大语言模型数据分析,通过输入给定的分子名称或者分子SMILES表达式,给定分子相关的介绍。

3. 基于文本的分子生成:大语言模型在包含分子smile和描述性文本的语料库上进行预训练,实现在用户输入自然语言相关药物分子描述时,平台能够生成相关药物分子的具体SMILES表达式。

4. 药物-靶点相互作用预测:模型基于分子相互作用的训练数据中进行学习,用户可输入两个药物分子,平台识别潜在的药物相互作用和治疗靶点是否存在或具体位置。

5.分子表示转换:平台可以根据输入分子名称信息,分子可以以各种形式表示,如分子式、SMILES、IUPAC名称等。

6.分子可视化展示:基于大语言模型训练,将输入的分子SMLIES式给出相关的分子式图形展示。

7.分子综合分析:基于大语言模型对药物分子的数据的综合分析,根据相关分子属性、作用类型、作用方式等不同方面进行饼图、直方图等可视化展示。

8.对话交流:我们将在系统中内嵌大语言对话模型,通过该模型,用户在该平台上可以不进行编程,即可获得需要的信息。

2.3.2模块划分

我们的项目由以下几个模块组成:数据输入模块、模型处理模块、结果展示模块、可视化分析模块。

数据输入模块

用户可以选择将分子图转换为SMILES字符串,输入进系统中,在模型端使用RDKit对输入的SMILES进行转换。同时,为了考虑用户使用效果,未来的系统中可能会引入Convert SMILES to 3D structure提供的分子图转换板块,将分子SMILES转化为分子图,方便用户理解。

模型处理模块

根据输入的药物分子数据,该模块将提取特征表示以供模型使用。可能涉及到基于图神经网络的特征提取、分子指纹计算等。利用预训练的深度学习模型或自定义的模型架构,该模块将对药物分子进行预测和分析。例如,可以进行药物性质预测、活性预测、药物相互作用预测等。

结果展示模块

将模型处理模块生成的多个结果进行整合,并以易于理解的方式展示给用户。为了帮助用户理解模型的预测和分析过程,该模块还可以提供结果的解释和推理。例如,可以显示模型对于预测结果的重要特征或关键影响因素的解释说明。

可视化分析模块

与多种现有类似方法进行对比参考,通过不同的实验方法进行判别对比,最终形成可视化的结果显示,能有效给使用者进行说明展示。通过使用一些有标签的进行有监督学习,将我们模型生成的结果与数据对应的真正结果进行对比,通过ACC、AUC等指标,对我们的项目进行评估,通过不断地调整、训练与修改,将最终不同类别数据的结果图进行展示,包括柱状图、饼图、ROC曲线图和PR曲线等多种数据展示方法。

2.4技术路线

我们的平台将会分为模型端、后端、前端三个部分。

我们计划在模型端使用PyTorch框架来实现各种深度学习框架和算法,其中包括但不限于GNN(图神经网络)、Adaptor(适配器)、LLM(大语言模型)等,通过Pytorch框架和各种深度学习算法的应用,我们将能够有效地处理药物分子的复杂数据,并进行准确的预测和分析。对于语言交互模型,我们预计使用Vicuna羊驼模型提供高质量的语言交互功能,使用户能够直观地与平台进行交流和探索,并根据需要进行调整和优化。

而在后端方面,我们将采用Spring Boot框架,在服务器上进行搭建和部署,以确保平台的稳定运行和可扩展性。

至于前端部分,我们将采用React框架或VUE框架来构建用户界面,使用户能够轻松地使用平台,自主提交药物分子并与分析结果进行交互,我们将注重界面的直观性和易用性,以提供令人满意的用户体验。

2.5预期成果

成功搭建出基于大语言模型的药物分子性质分析平台,能够进入该平台并正常使用,实现大模型对话系统,用户可以通过简单的对话,给定一个分子的SMILES,可获得该分子的相关性质等功能。在现场演示时,可以按预定方案或者老师要求完成所有功能的演示。

3.实施计划

需求分析将于2024年3月27日开始,2024年4月5日结束,做好前期调研、论文阅读筛选、任务划分和工作安排等工作。

第一次迭代将于2024年4月6日开始,2024年5月1日结束,至少完成SMILES分子处理、数据输入的功能并通过测试。

第二次迭代将于2024年5月2日开始,2024年5月19日结束,至少完成GNN部分的搭建工作、使用Adaptor将GNN与LLM结合并通过测试。

第三次迭代将于2024年5月20日开始,2024年6月10日结束,至少完成Web平台的搭建、将模型接口连接至Web平台并完成测试。

第四次迭代将于2024年6月11日开始,2024年6月29日结束。完成所有模块,并对所有功能进行测试和评估。同时准备结题答辩。

  • 33
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值