在实际生活中,许多数据都可以用图的形式表达,比如社交网络、分子模型、知识图谱、计算机网络、疾病网络等。图深度学习旨在,显式利用这些数据中的拓扑结构信息,达到更好的预测效果。具体来说,如下图所示,给定一个图,我们主要关注的机器学习任务包括:节点级别的预测,链接级别的预测,图级别的预测等。
疾病关联知识图谱
在深度学习应用中,高维生物数据往往被转化成具有欧氏结构的表征,比如将分子和蛋白质使用固定长度的分子指纹、蛋白接触图等表示,但仅用这些表征往往是不充分的,会丢失大量有用的信息,导致算法的预测性能难以突破。[1]
蛋白质-小分子相互作用关系在CPI-IGAE模型中的整体流程图[1]
为了解决欧式结构表征的局限性,图深度学习既可以用于分子表征,呈现出更多的几何结构特性,也可以用于复杂关系的构建,更宏观地进行问题探索,推动了深度学习在药物研发和精准诊疗领域的进一步深入。
图深度学习在生物医药和精准诊疗中的三个典型应用方向
(1)药物研发方面的应用(AIDD方向)
FP-GNN模型结构图-完成药物性质预测、药物-靶标关联预测和药物-疾病关联预测[2]
图神经网络(GCN)在药物设计和筛选过程中发挥着重要作用。GCN能够直接对药物分子结构、靶点及代谢途径等图结构数据进行建模和分析。通过将分子表示为图,其中节点代表原子,边代表原子之间的键,GCN可以捕捉分子中原子之间的拓扑关系和化学键信息,从而学习到分子的结构特征,如分子骨架、官能团和立体构型。此外,GCN还可以对靶点和代谢途径进行建模,预测分子与靶蛋白之间的相互作用以及药物在体内的代谢路径。这种强大的建模能力使得GCN能够预测分子的各种性质和活性,如溶解度、毒性、生物活性等,从而加速药物设计和筛选过程,提高药物的有效性和安全性。
(2)疾病治疗方面的应用(CDSS方向)
图神经网络(GCN)在药物设计和筛选过程中发挥着重要作用。GCN能够直接对药物分子结构、靶点及代谢途径等图结构数据进行建模和分析。通过将分子表示为图,其中节点代表原子,边代表原子之间的键,GCN可以捕捉分子中原子之间的拓扑关系和化学键信息,从而学习到分子的结构特征,如分子骨架、官能团和立体构型。此外,GCN还可以对靶点和代谢途径进行建模,预测分子与靶蛋白之间的相互作用以及药物在体内的代谢路径。这种强大的建模能力使得GCN能够预测分子的各种性质和活性,如溶解度、毒性、生物活性等,从而加速药物设计和筛选过程,提高药物的有效性和安全性。
(3)生物医药数据库建设方面的应用
Fact Finder-通过结合知识图增强大型语言模型的领域专业知识[3]
通过采用先进的实体-关系-属性抽取模型,我们能够高效地整合来自多个医药数据库的丰富资源,构建一个全面且结构化的知识图谱。这一图谱不仅为用户提供了一个统一的查询和分析接口,使得他们能够快速、准确地获取到所需的医药信息,如药物信息、疾病特征、临床试验结果等,极大地提升了信息检索的便捷性和效率。而且,我们还利用这一多元异构的知识图谱作为本地知识库的基础,结合强大的大模型技术和LangChain等前沿工具,进一步开发出高可信的大模型问答系统、智能推荐系统以及精准诊疗系统。这些系统能够基于用户的具体需求和情境,提供个性化的、高质量的医药知识服务,为医疗决策、疾病治疗及健康管理等领域带来革命性的改变,推动医疗信息化和智能化的发展。
艾米实验室在知识图谱与图神经网络(GCN)领域拥有深厚的研究基础,并已成功将这一专长应用于多个关键领域。在药物研发(AIDD方向)上,我们推动了创新进展;在疾病治疗决策支持(CDSS方向)上,我们实现了重要突破;同时,在生物医药数据库的建设方面,我们也取得了丰富的经验与显著成果。我们诚邀各界合作伙伴,共同推动这些领域的进一步研究与实际应用落地,携手为生物医药行业的发展贡献力量。
疾病精准治疗方面的应用(CDSS方向)图深度学习技术研发流程
以知识图谱的图神经网络(GCN)为基础的图深度学习主要的技术研发流程包括:数据准备与本体知识建模、网络图构建、知识融合、知识表示与存储。
(1)数据收集与准备
从各种数据源(如关系数据库、百科类网站、公开数据集等)中收集相关的结构化、半结构化和非结构化数据。
数据清洗:对收集到的数据进行预处理,包括去除重复数据、处理缺失值、纠正错误数据等,以确保数据的质量和一致性。
(2)知识抽取
知识抽取是知识图谱构建的核心步骤之一,包括实体抽取、关系抽取和属性抽取。
实体抽取:从文本中自动识别出具有特定意义的实体,如疾病名称、症状名词、药品名词等。这通常通过命名实体识别(NER)技术来实现。除此之外,我们也会利用大模型进行高效微调或Prompt提示词模板工程完成抽取任务。
关系抽取:识别并提取出实体之间的语义关系,如雇佣关系、类属关系等。关系抽取技术可以基于模式匹配、统计机器学习或深度学习等方法。关系抽取的目的是预测实体之间的关系。最后该研究将句子表示和实体表示连接起来以获得最终的分类表示。
句法解析树[4]
关系抽取有两种典型的方式:基于文本序列的建模方式、基于句法解析树的建模方式。自然语言处理(Natural Language Processing,NLP)句法解析树是一种表示自然语言句子结构的图形化方式。它帮助将句子中的每个词汇和短语按照语法规则连接起来,形成一个树状结构,以便更好地理解句子的语法结构和含义。句法解析树对于理解句子的句法关系、依存关系以及语义角色等非常重要。句法解析树的构建过程通常基于语法规则只和词汇信息。
用于关系提取的注意引导图卷积网络[4]
句法依赖树可以更好的捕捉到句子中的依赖信息,结合图卷积神经网络可以高效的提取和捕捉句子中各个实体之间的关系。例如AGGCN模型通过引入注意力机制来动态调整图结构中的节点连接,并利用密集连接层来捕获节点之间的复杂交互,从而生成更丰富的节点表示。这种模型在处理图结构数据(如句子依赖树)时表现出色,能够捕捉到句子中单词之间的语义关系。
属性抽取:从文本中抽取出实体的属性及其属性值,形成结构化数据。这可以通过规则提取、模板匹配或机器学习等方法来实现。
(3)知识融合
在获得新知识之后,需要对其进行整合,以消除矛盾和歧义。知识融合包括实体对齐、关系融合和属性融合等方面。
实体对齐:将不同数据源中的相同或相似实体进行匹配和合并,以形成一个统一的实体表示。
关系融合:将不同数据源中描述相同实体关系的不同表述进行归一化,以确保关系的一致性。
属性融合:对相同实体的不同属性值进行合并和筛选,以形成一个准确、完整的属性表示。
(4)知识表示与存储
知识表示是将抽取和融合后的知识以结构化的方式表示出来,以便进行高效的存储和查询。常见的知识表示方法包括RDF(资源描述框架)、OWL(网络本体语言)等。
知识表示学习主流的方式[5]
原始知识图谱中自动学习出每个节点和边的有效特征, 并以低维向量的形式实现对实体和关系语义的表示。[5]知识表示学习是将知识图谱中的字符化的的知识节点和关系用数字化的向量表示。这种表示向量不仅仅是自身属性的数字化,而是要能隐含这个实体或关系的深层次含义。只有这样,才能在下游的实体链接和知识推理任务中通过实体关系的表示向量挖掘潜在的隐含信息。
在知识表示学习中,我们应用较多的是神经网络模型和图神经网络模型。由于知识图谱网络、靶点、药物分子这种天然的图结构,利用神经网络模型和图神经网络模型可以更好的挖掘图谱中的隐层特征,更好的表征节点和关系。为下游的知识推理、活性预测、链路预测、智能推荐等应用奠定基础。
在存储方面,知识图谱通常采用图数据库进行存储,如Neo4j、JanusGraph等。这些图数据库能够高效地存储和查询大规模的图结构数据。
图深度学习技术在药物研发方面的应用(AIDD方向)
由于靶点、小分子药物等3维结构数据天然具有网络结构信息,因此将靶点、小分子药物等3维结构数据作为一直特殊的网络图结构,也可以利用图深度学习技术完成相关应用,例如在蛋白质-小分子活性预测、化合物-蛋白质结合亲和力预测、蛋白质-配体结合构象预测等应用中都有显著效果。
(1)化合物-蛋白质活性预测(CPI)
基于图神经网络的化合物-蛋白质相互作用研究CPI[1]
在基于图神经网络的化合物-蛋白质相互作用研究[1]文中,作者基于图深度学习构建了CPI-IGAE模型。通过加权同质图的数据结构克服异质图表示与GNN算法不匹配的问题。利用归纳式图聚合器完成对关系图的表示学习,并赋予模型对训练集之外的新数据进行预测的能力。CPI-IGAE模型的提出为我们在小分子的药物设计于优化方面提供的参考。
(2)化合物-蛋白质结合亲和力预测(CPA)
基于图神经网络的化合物-蛋白质相互作用研究CPA[1]
在基于图神经网络的化合物-蛋白质相互作用研究[1]文中,作者基于图深度学习和点云构建了DGCNN模型。DGCNN通过构建KNN图的方式将动态图显式地引入了点云DL算法中,KNN图可以捕获点云的局部结构特征,DGCNN独创的EdgeConv层在KNN图上通过GCN的操作对点云中每个点的特征进行更新,随后模型会根据更新的点特征而重构KNN图。
除上述典型的图深度学习模型和知识图谱技术外,当前越来越多的创新图深度学习技术和模型在生物医药这一典型且至关重要的领域中取得了显著且令人鼓舞的效果。这些技术和模型不仅深化了我们对生物分子间复杂相互作用的理解,还加速了新药研发、疾病诊断与治疗策略的制定。
图深度学习技术被广泛应用于解析蛋白质-蛋白质相互作用网络、基因调控网络以及药物-靶点关系等。通过构建精细的生物分子图结构,研究者能够捕捉到分子间的微妙联系,进而揭示疾病发生的潜在机制。例如,基于图卷积网络(GCN)的模型能够高效地整合多组学数据,预测基因的功能和疾病关联,为精准医疗提供有力支持。
图深度学习中所涉及主要技术
在图深度目前已有的研究中,我们重点集中于知识图谱(Knowledge Graph)和图神经网络(GCN)方向。细分的技术包括:
在图深度目前已有的研究中,我们重点集中于知识图谱和图神经网络方向。细分的技术包括:
知识图谱构建技术:我们致力于开发高效的知识图谱构建算法,包括实体识别、关系抽取、属性抽取等步骤,以确保知识图谱的准确性和完整性。同时,我们也在探索如何有效地整合多种数据源,以构建跨领域、跨语言的大规模知识图谱。
图神经网络模型优化:在图神经网络方面,我们深入研究了各种模型架构,如图卷积网络(GCN)、图注意力网络(GAT)等,并针对特定应用场景进行了模型优化。我们尝试通过调整模型参数、引入新的正则化方法、使用更高效的训练算法等手段,来提高模型的性能和泛化能力。
知识图谱与图神经网络的融合:我们积极探索如何将知识图谱与图神经网络相结合,以充分利用两者的优势。通过引入知识图谱中的先验知识,我们可以为图神经网络提供更丰富的上下文信息,从而改善其性能。同时,图神经网络也可以为知识图谱的补全、推理等任务提供有力的支持。
应用场景拓展:我们关注知识图谱和图神经网络在多个领域的应用,如推荐系统、智能问答、语义搜索等。我们致力于将这些技术应用于实际问题中,以解决实际问题并提高用户体验。
算法评估与性能优化:在算法研发过程中,我们注重算法的评估与性能优化。我们设计了多种评估指标和方法,以全面评估算法的性能和效果。同时,我们也针对算法在实际应用中的瓶颈问题进行了深入研究,并提出了相应的优化方案。
由于篇幅关系,在此仅对图注意力网络(GAT)核心技术做介绍
图注意力网络将注意力机制引入到基于空间域的图神经网络,与基于谱域的图卷积神经网络不同,图注意力网络不需要使用拉普拉斯等矩阵进行复杂的计算,仅是通过一介邻居节点的表征来更新节点特征,所以算法原理从理解上较为简单。
作为一种代表性的图卷积网络,Graph Attention Network (GAT)引入了注意力机制来实现更好的邻居聚合。通过学习邻居的权重,GAT可以实现对邻居的加权聚合。因此,GAT不仅对于噪音邻居较为鲁棒,注意力机制也赋予了模型一定的可解释性。在图注意力网络中,其节点的特征表示和普通的图神经网络中的节点的特征表示是类似的,都是采用embedding的方式对节点的特征表示进行向量化。对于图注意力神经网络而言,其初始的输入也是各个节点的特征组合。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。